DP-203 Deutsch 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203 Deutsch Version)」
Sie verfügen über einen dedizierten Azure Synapse Analytics-SQL-Pool.
Sie müssen eine Tabelle mit dem Namen FactInternetSales erstellen, die eine große Faktentabelle in einem dimensionalen Modell darstellt.
FactInternetSales wird 100 Millionen Zeilen und zwei Spalten mit den Namen SalesAmount und OrderQuantity enthalten.
Auf FactInternetSales ausgeführte Abfragen aggregieren die Werte in SalesAmount und OrderQuantity aus dem letzten Jahr für ein bestimmtes Produkt. Die Lösung muss die Datengröße und die Ausführungszeit der Abfrage minimieren.
Wie soll der Code vervollständigt werden? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Sie müssen eine Tabelle mit dem Namen FactInternetSales erstellen, die eine große Faktentabelle in einem dimensionalen Modell darstellt.
FactInternetSales wird 100 Millionen Zeilen und zwei Spalten mit den Namen SalesAmount und OrderQuantity enthalten.
Auf FactInternetSales ausgeführte Abfragen aggregieren die Werte in SalesAmount und OrderQuantity aus dem letzten Jahr für ein bestimmtes Produkt. Die Lösung muss die Datengröße und die Ausführungszeit der Abfrage minimieren.
Wie soll der Code vervollständigt werden? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:
Box 1: (CLUSTERED COLUMNSTORE INDEX
CLUSTERED COLUMNSTORE INDEX
Columnstore indexes are the standard for storing and querying large data warehousing fact tables. This index uses column-based data storage and query processing to achieve gains up to 10 times the query performance in your data warehouse over traditional row-oriented storage. You can also achieve gains up to 10 times the data compression over the uncompressed data size. Beginning with SQL Server 2016 (13.x) SP1, columnstore indexes enable operational analytics: the ability to run performant real-time analytics on a transactional workload.
Note: Clustered columnstore index
A clustered columnstore index is the physical storage for the entire table.

To reduce fragmentation of the column segments and improve performance, the columnstore index might store some data temporarily into a clustered index called a deltastore and a B-tree list of IDs for deleted rows.
The deltastore operations are handled behind the scenes. To return the correct query results, the clustered columnstore index combines query results from both the columnstore and the deltastore.
Box 2: HASH([ProductKey])
A hash distributed table distributes rows based on the value in the distribution column. A hash distributed table is designed to achieve high performance for queries on large tables.
Choose a distribution column with data that distributes evenly
Reference: https://docs.microsoft.com/en-us/sql/relational-databases/indexes/columnstore-indexes-overview
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- overview
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- distribute
Sie planen den Einsatz von Azure Data Lake Storage Gen2.
Sie verfügen über die folgenden zwei Berichte, die auf den Data Lake zugreifen:
* Report1: Liest drei Spalten aus einer Datei, die 50 Spalten enthält.
* Report2: Fragt einen einzelnen Datensatz basierend auf einem Zeitstempel ab.
Sie müssen empfehlen, in welchem Format die Daten im Data Lake gespeichert werden sollen, um die Berichte zu unterstützen. Die Lösung muss die Lesezeiten minimieren.
Was sollten Sie für jeden Bericht empfehlen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Sie verfügen über die folgenden zwei Berichte, die auf den Data Lake zugreifen:
* Report1: Liest drei Spalten aus einer Datei, die 50 Spalten enthält.
* Report2: Fragt einen einzelnen Datensatz basierend auf einem Zeitstempel ab.
Sie müssen empfehlen, in welchem Format die Daten im Data Lake gespeichert werden sollen, um die Berichte zu unterstützen. Die Lösung muss die Lesezeiten minimieren.
Was sollten Sie für jeden Bericht empfehlen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:

Report1: CSV
CSV: The destination writes records as delimited data.
Report2: AVRO
AVRO supports timestamps.
Not Parquet, TSV: Not options for Azure Data Lake Storage Gen2.
Reference:
https://streamsets.com/documentation/datacollector/latest/help/datacollector/UserGuide/Destinations/ADLS- G2-D.html
Sie erstellen eine Datenbank in einem serverlosen SQL-Pool von Azure Synapse Analytics.
Sie haben Daten in Parquet-Dateien in einem Azure Data Lake Storage Gen2-Container gespeichert.
Datensätze sind wie im folgenden Beispiel dargestellt strukturiert.
{
"id": 123,
"address_housenumber": "19c",
„address_line“: „Speicherspur“,
„applicant1_name“: „Jane“,
„applicant2_name“: „Entwickler“
}
In den Unterlagen sind höchstens zwei Bewerber enthalten.
Sie müssen eine Tabelle erstellen, die nur die Adressfelder enthält.
Wie sollten Sie die Transact-SQL-Anweisung vervollständigen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Sie haben Daten in Parquet-Dateien in einem Azure Data Lake Storage Gen2-Container gespeichert.
Datensätze sind wie im folgenden Beispiel dargestellt strukturiert.
{
"id": 123,
"address_housenumber": "19c",
„address_line“: „Speicherspur“,
„applicant1_name“: „Jane“,
„applicant2_name“: „Entwickler“
}
In den Unterlagen sind höchstens zwei Bewerber enthalten.
Sie müssen eine Tabelle erstellen, die nur die Adressfelder enthält.
Wie sollten Sie die Transact-SQL-Anweisung vervollständigen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:
Box 1: CREATE EXTERNAL TABLE
An external table points to data located in Hadoop, Azure Storage blob, or Azure Data Lake Storage. External tables are used to read data from files or write data to files in Azure Storage. With Synapse SQL, you can use external tables to read external data using dedicated SQL pool or serverless SQL pool.
Syntax:
CREATE EXTERNAL TABLE { database_name.schema_name.table_name | schema_name.table_name | table_name } ( <column_definition> [ ,...n ] ) WITH ( LOCATION = 'folder_or_filepath', DATA_SOURCE = external_data_source_name, FILE_FORMAT = external_file_format_name Box 2. OPENROWSET When using serverless SQL pool, CETAS is used to create an external table and export query results to Azure Storage Blob or Azure Data Lake Storage Gen2.
Example:
AS
SELECT decennialTime, stateName, SUM(population) AS population
FROM
OPENROWSET(BULK 'https://azureopendatastorage.blob.core.windows.net/censusdatacontainer/release
/us_population_county/year=*/*.parquet',
FORMAT='PARQUET') AS [r]
GROUP BY decennialTime, stateName
GO
Reference:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql/develop-tables-external-tables
In Azure Data Factory verfügen Sie über einen Zeitplanauslöser, der in Pacific Time geplant ist.
Bei Pacific Time gilt die Sommerzeit.
Der Trigger verfügt über die folgende JSON-Datei.

Verwenden Sie die Dropdown-Menüs, um die Antwortmöglichkeit auszuwählen, die jede Aussage basierend auf den präsentierten Informationen vervollständigt.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Bei Pacific Time gilt die Sommerzeit.
Der Trigger verfügt über die folgende JSON-Datei.

Verwenden Sie die Dropdown-Menüs, um die Antwortmöglichkeit auszuwählen, die jede Aussage basierend auf den präsentierten Informationen vervollständigt.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:

Sie verfügen über die folgenden Azure Data Factory-Pipelines
* Daten von System 1 aufnehmen
* Daten von System2 aufnehmen
* Dimensionen ausfüllen
* Füllen Sie Fakten aus
„Ingest Data from System1“ und „Ingest Data from System1“ haben keine Abhängigkeiten. „Populate Dimensions“ muss nach „Ingest Data from System1“ und „Ingest Data from System*“ ausgeführt werden. „Populate Facts“ muss nach der Populate Dimensions-Pipeline ausgeführt werden. Alle Pipelines müssen alle acht Stunden ausgeführt werden.
Was sollten Sie tun, um die Ausführung der Pipelines zu planen?
* Daten von System 1 aufnehmen
* Daten von System2 aufnehmen
* Dimensionen ausfüllen
* Füllen Sie Fakten aus
„Ingest Data from System1“ und „Ingest Data from System1“ haben keine Abhängigkeiten. „Populate Dimensions“ muss nach „Ingest Data from System1“ und „Ingest Data from System*“ ausgeführt werden. „Populate Facts“ muss nach der Populate Dimensions-Pipeline ausgeführt werden. Alle Pipelines müssen alle acht Stunden ausgeführt werden.
Was sollten Sie tun, um die Ausführung der Pipelines zu planen?
正解:B
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie verfügen über eine Azure Data Factory mit den in der folgenden Abbildung gezeigten Git-Repository-Einstellungen.

Verwenden Sie die Dropdown-Menüs, um die Antwort auszuwählen, die jede Aussage basierend auf den in der Grafik dargestellten Informationen vervollständigt.
HINWEIS: Jede richtige Antwort ist einen Punkt wert.


Verwenden Sie die Dropdown-Menüs, um die Antwort auszuwählen, die jede Aussage basierend auf den in der Grafik dargestellten Informationen vervollständigt.
HINWEIS: Jede richtige Antwort ist einen Punkt wert.

正解:

Explanation:

Sie erstellen einen Azure Stream Analytics-Auftrag, der Referenzdaten aus einer Produktkatalogdatei abfragt. Die Datei wird täglich aktualisiert.
Die Referenzdaten-Eingabedetails für die Datei werden in der Eingabe-Ausstellung angezeigt. (Klicken Sie auf die Registerkarte Eingabe.)

Die Containeransicht des Speicherkontos wird in der Refdata-Ausstellung gezeigt. (Klicken Sie auf die Registerkarte Refdata.)

Sie müssen den Stream Analytics-Auftrag konfigurieren, um die neuen Referenzdaten aufzunehmen.
Was sollten Sie konfigurieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Die Referenzdaten-Eingabedetails für die Datei werden in der Eingabe-Ausstellung angezeigt. (Klicken Sie auf die Registerkarte Eingabe.)

Die Containeransicht des Speicherkontos wird in der Refdata-Ausstellung gezeigt. (Klicken Sie auf die Registerkarte Refdata.)

Sie müssen den Stream Analytics-Auftrag konfigurieren, um die neuen Referenzdaten aufzunehmen.
Was sollten Sie konfigurieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:

Box 1: {date}/product.csv
In the 2nd exhibit we see: Location: refdata / 2020-03-20
Note: Path Pattern: This is a required property that is used to locate your blobs within the specified container.
Within the path, you may choose to specify one or more instances of the following 2 variables:
{date}, {time}
Example 1: products/{date}/{time}/product-list.csv
Example 2: products/{date}/product-list.csv
Example 3: product-list.csv
Box 2: YYYY-MM-DD
Note: Date Format [optional]: If you have used {date} within the Path Pattern that you specified, then you can select the date format in which your blobs are organized from the drop-down of supported formats.
Example: YYYY/MM/DD, MM/DD/YYYY, etc.
Reference:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-use-reference-data
Sie verfügen über ein Azure-Abonnement, das einen dedizierten Azure Synapse Analytics-SQL-Pool mit dem Namen Pool1 enthält.
Pool1 empfängt alle 24 Stunden neue Daten.
Sie haben die folgende Funktion.

Sie haben die folgende Abfrage.

Die Abfrage wird alle 15 Minuten einmal ausgeführt und der @parameter-Wert wird auf das aktuelle Datum gesetzt.
Sie müssen die Zeit minimieren, die die Abfrage benötigt, um Ergebnisse zurückzugeben.
Welche zwei Aktionen sollten Sie durchführen? Jede richtige Antwort stellt einen Teil der Lösung dar.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
Pool1 empfängt alle 24 Stunden neue Daten.
Sie haben die folgende Funktion.

Sie haben die folgende Abfrage.

Die Abfrage wird alle 15 Minuten einmal ausgeführt und der @parameter-Wert wird auf das aktuelle Datum gesetzt.
Sie müssen die Zeit minimieren, die die Abfrage benötigt, um Ergebnisse zurückzugeben.
Welche zwei Aktionen sollten Sie durchführen? Jede richtige Antwort stellt einen Teil der Lösung dar.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:B、C
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie entwerfen eine Partitionsstrategie für eine Faktentabelle in einem dedizierten Azure Synapse Analytics-SQL-Pool. Die Tabelle weist folgende Spezifikationen auf:
* Enthält Verkaufsdaten für 20.000 Produkte.
* Verwenden Sie die Hash-Verteilung für eine Spalte namens ProduclID.
* Enthält 2,4 Milliarden Datensätze für die Jahre 2019 und 2020.
Welche Anzahl an Partitionsbereichen sorgt für optimale Komprimierung und Leistung des gruppierten Columnstore-Index?
* Enthält Verkaufsdaten für 20.000 Produkte.
* Verwenden Sie die Hash-Verteilung für eine Spalte namens ProduclID.
* Enthält 2,4 Milliarden Datensätze für die Jahre 2019 und 2020.
Welche Anzahl an Partitionsbereichen sorgt für optimale Komprimierung und Leistung des gruppierten Columnstore-Index?
正解:D
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie verfügen über eine Azure Data Factory, die eine Verbindung zu einem Microsoft Purview-Konto herstellt. Die Data Factory ist in Microsoft Purview registriert.
Sie aktualisieren eine Data Factory-Pipeline.
Sie müssen sicherstellen, dass die aktualisierte Herkunft in Microsoft Purview verfügbar ist.
Was Sie über ein Azure-Abonnement verfügen, das eine Azure SQL-Datenbank namens DB1 und ein Speicherkonto namens storage1 enthält. Das Konto storage1 enthält eine Datei mit dem Namen File1.txt. File1.txt enthält die Namen der ausgewählten Tabellen in DB1.
Sie müssen eine Azure Synapse-Pipeline verwenden, um Daten aus den ausgewählten Tabellen in DB1 in die Dateien in Speicher1 zu kopieren. Die Lösung muss folgende Anforderungen erfüllen:
* Die Kopieraktivität in der Pipeline muss parametrisiert werden, um die Daten in File1.txt zu verwenden, um die Quelle und das Ziel der Kopie zu identifizieren.
* Kopieraktivitäten müssen so oft wie möglich parallel stattfinden.
Welche beiden Pipeline-Aktivitäten sollten Sie in die Pipeline aufnehmen? Jede richtige Antwort stellt einen Teil der Lösung dar. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
Sie aktualisieren eine Data Factory-Pipeline.
Sie müssen sicherstellen, dass die aktualisierte Herkunft in Microsoft Purview verfügbar ist.
Was Sie über ein Azure-Abonnement verfügen, das eine Azure SQL-Datenbank namens DB1 und ein Speicherkonto namens storage1 enthält. Das Konto storage1 enthält eine Datei mit dem Namen File1.txt. File1.txt enthält die Namen der ausgewählten Tabellen in DB1.
Sie müssen eine Azure Synapse-Pipeline verwenden, um Daten aus den ausgewählten Tabellen in DB1 in die Dateien in Speicher1 zu kopieren. Die Lösung muss folgende Anforderungen erfüllen:
* Die Kopieraktivität in der Pipeline muss parametrisiert werden, um die Daten in File1.txt zu verwenden, um die Quelle und das Ziel der Kopie zu identifizieren.
* Kopieraktivitäten müssen so oft wie möglich parallel stattfinden.
Welche beiden Pipeline-Aktivitäten sollten Sie in die Pipeline aufnehmen? Jede richtige Antwort stellt einen Teil der Lösung dar. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:C、D
解答を投票する
Sie verfügen über ein Azure-Abonnement, das einen Azure Synapse Analytics-Arbeitsbereich mit dem Namen „workspace1“ enthält.
Workspace1 enthält einen dedizierten SQL-Pool namens SQL Pool und einen Apache Spark-Pool namens sparkpool.
Sparkpool1 enthält einen DataFrame namens pyspark.df.
Sie müssen den Inhalt von pyspark_df mithilfe eines PySpark-Notebooks in eine Registerkarte in SQLPooM schreiben.
Wie soll der Code vervollständigt werden? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Workspace1 enthält einen dedizierten SQL-Pool namens SQL Pool und einen Apache Spark-Pool namens sparkpool.
Sparkpool1 enthält einen DataFrame namens pyspark.df.
Sie müssen den Inhalt von pyspark_df mithilfe eines PySpark-Notebooks in eine Registerkarte in SQLPooM schreiben.
Wie soll der Code vervollständigt werden? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:

Ein Unternehmen plant, Platform-as-a-Service (PaaS) zu nutzen, um den neuen Datenpipeline-Prozess zu erstellen. Der Prozess muss folgende Anforderungen erfüllen:
Aufnehmen:
* Greifen Sie auf mehrere Datenquellen zu.
* Bieten Sie die Möglichkeit, Arbeitsabläufe zu orchestrieren.
* Bieten Sie die Möglichkeit, SQL Server Integration Services-Pakete auszuführen.
Speichern:
* Optimieren Sie den Speicher für Big-Data-Workloads.
* Sorgen Sie für die Verschlüsselung ruhender Daten.
* Betrieb ohne Größenbeschränkung.
Bereiten Sie sich vor und trainieren Sie:
* Stellen Sie einen vollständig verwalteten und interaktiven Arbeitsbereich zur Erkundung und Visualisierung bereit.
* Bieten Sie die Möglichkeit, in R, SQL, Python, Scala und Java zu programmieren.
* Bieten Sie eine nahtlose Benutzerauthentifizierung mit Azure Active Directory.
Modellieren und bedienen:
* Implementieren Sie nativen Spaltenspeicher.
* Unterstützung für die SQL-Sprache
* Bieten Sie Unterstützung für strukturiertes Streaming.
Sie müssen die Datenintegrationspipeline aufbauen.
Welche Technologien sollten Sie nutzen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Aufnehmen:
* Greifen Sie auf mehrere Datenquellen zu.
* Bieten Sie die Möglichkeit, Arbeitsabläufe zu orchestrieren.
* Bieten Sie die Möglichkeit, SQL Server Integration Services-Pakete auszuführen.
Speichern:
* Optimieren Sie den Speicher für Big-Data-Workloads.
* Sorgen Sie für die Verschlüsselung ruhender Daten.
* Betrieb ohne Größenbeschränkung.
Bereiten Sie sich vor und trainieren Sie:
* Stellen Sie einen vollständig verwalteten und interaktiven Arbeitsbereich zur Erkundung und Visualisierung bereit.
* Bieten Sie die Möglichkeit, in R, SQL, Python, Scala und Java zu programmieren.
* Bieten Sie eine nahtlose Benutzerauthentifizierung mit Azure Active Directory.
Modellieren und bedienen:
* Implementieren Sie nativen Spaltenspeicher.
* Unterstützung für die SQL-Sprache
* Bieten Sie Unterstützung für strukturiertes Streaming.
Sie müssen die Datenintegrationspipeline aufbauen.
Welche Technologien sollten Sie nutzen? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

正解:

Explanation:
