DP-203 Deutsch 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203 Deutsch Version)」
Sie verfügen über einen Azure Event Hub mit dem Namen „retailhub“, der über 16 Partitionen verfügt. Transaktionen werden im Retailhub veröffentlicht.
Zu jeder Transaktion gehören die Transaktions-ID, die einzelnen Posten und die Zahlungsdetails. Als Partitionsschlüssel wird die Transaktions-ID verwendet.
Sie entwerfen einen Azure Stream Analytics-Auftrag, um potenziell betrügerische Transaktionen in einem Einzelhandelsgeschäft zu identifizieren. Der Job verwendet Retailhub als Eingabe. Der Job gibt die Transaktions-ID, die einzelnen Posten, die Zahlungsdetails, einen Betrugsscore und einen Betrugsindikator aus.
Sie planen, die Ausgabe an einen Azure Event Hub mit dem Namen Fraudhub zu senden.
Sie müssen sicherstellen, dass die Betrugserkennungslösung hoch skalierbar ist und Transaktionen so schnell wie möglich verarbeitet.
Wie sollten Sie die Ausgabe des Stream Analytics-Auftrags strukturieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
Zu jeder Transaktion gehören die Transaktions-ID, die einzelnen Posten und die Zahlungsdetails. Als Partitionsschlüssel wird die Transaktions-ID verwendet.
Sie entwerfen einen Azure Stream Analytics-Auftrag, um potenziell betrügerische Transaktionen in einem Einzelhandelsgeschäft zu identifizieren. Der Job verwendet Retailhub als Eingabe. Der Job gibt die Transaktions-ID, die einzelnen Posten, die Zahlungsdetails, einen Betrugsscore und einen Betrugsindikator aus.
Sie planen, die Ausgabe an einen Azure Event Hub mit dem Namen Fraudhub zu senden.
Sie müssen sicherstellen, dass die Betrugserkennungslösung hoch skalierbar ist und Transaktionen so schnell wie möglich verarbeitet.
Wie sollten Sie die Ausgabe des Stream Analytics-Auftrags strukturieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:
Explanation:
Box 1: 16
For Event Hubs you need to set the partition key explicitly.
An embarrassingly parallel job is the most scalable scenario in Azure Stream Analytics. It connects one partition of the input to one instance of the query to one partition of the output.
Box 2: Transaction ID
Reference:
https://docs.microsoft.com/en-us/azure/event-hubs/event-hubs-features#partitions
Sie haben ein Azure Data Lake Storage Gen2-Konto mit dem Namen „account1“, das einen Container mit dem Namen „Container"1 enthält. Container1 enthält zwei Ordner mit den Namen „FolderA“ und „FolderB“.
Sie müssen Zugriffskontrolllisten (ACLs) konfigurieren, um die folgenden Anforderungen zu erfüllen:
* Gruppe1 muss in der Lage sein, die Inhalte und Unterordner von OrdnerA aufzulisten und zu lesen.
* Gruppe2 muss in der Lage sein, den Inhalt von OrdnerA und OrdnerB aufzulisten und zu lesen.
* Es muss verhindert werden, dass Gruppe2 andere Ordner im Stammverzeichnis von Container1 liest.
Wie sollten Sie die ACL-Berechtigungen für jede Gruppe konfigurieren? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
Sie müssen Zugriffskontrolllisten (ACLs) konfigurieren, um die folgenden Anforderungen zu erfüllen:
* Gruppe1 muss in der Lage sein, die Inhalte und Unterordner von OrdnerA aufzulisten und zu lesen.
* Gruppe2 muss in der Lage sein, den Inhalt von OrdnerA und OrdnerB aufzulisten und zu lesen.
* Es muss verhindert werden, dass Gruppe2 andere Ordner im Stammverzeichnis von Container1 liest.
Wie sollten Sie die ACL-Berechtigungen für jede Gruppe konfigurieren? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:
Explanation:
Sie haben einen Azure Stream Analytics-Auftrag mit dem Namen Job1.
Die Metriken von Job1 aus der letzten Stunde werden in der folgenden Tabelle angezeigt.
Die Verspätungstoleranz für Job1 ist auf fünf Sekunden festgelegt.
Sie müssen Job1 optimieren.
Welche beiden Maßnahmen erreichen das Ziel? Jede richtige Antwort stellt eine vollständige Lösung dar.
HINWEIS: Jede richtige Antwort ist einen Punkt wert.
Die Metriken von Job1 aus der letzten Stunde werden in der folgenden Tabelle angezeigt.
Die Verspätungstoleranz für Job1 ist auf fünf Sekunden festgelegt.
Sie müssen Job1 optimieren.
Welche beiden Maßnahmen erreichen das Ziel? Jede richtige Antwort stellt eine vollständige Lösung dar.
HINWEIS: Jede richtige Antwort ist einen Punkt wert.
正解:A、D
解答を投票する
Sie verfügen über einen Azure Databricks-Arbeitsbereich, der eine Delta Lake-Dimensionstabelle namens Tablet enthält. Tabelle 1 ist eine langsam veränderliche Dimensionstabelle (SCD) vom Typ 2. Sie müssen Aktualisierungen von einer Quelltabelle auf Tabelle1 anwenden.
Welche Apache Spark SQL-Operation sollten Sie verwenden?
Welche Apache Spark SQL-Operation sollten Sie verwenden?
正解:C
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie erstellen eine Azure Data Factory-Pipeline, um Daten aus einem Azure Data Lake Storage Gen2-Container in eine Datenbank in einem dedizierten Azure Synapse Analytics-SQL-Pool zu verschieben.
Die Daten im Container werden in der folgenden Ordnerstruktur gespeichert.
/in/{JJJJ}/{MM}/{TT}/{HH}/{mm}
Der früheste Ordner ist /in/2021/01/01/00/00. Der neueste Ordner ist /in/2021/01/15/01/45.
Sie müssen einen Pipeline-Trigger konfigurieren, um die folgenden Anforderungen zu erfüllen:
* Vorhandene Daten müssen geladen werden.
* Die Daten müssen alle 30 Minuten geladen werden.
* Verspätet eintreffende Daten von bis zu zwei Minuten müssen für den Zeitpunkt, zu dem die Daten hätten eintreffen sollen, in die Last einbezogen werden.
Wie sollten Sie den Pipeline-Trigger konfigurieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
Die Daten im Container werden in der folgenden Ordnerstruktur gespeichert.
/in/{JJJJ}/{MM}/{TT}/{HH}/{mm}
Der früheste Ordner ist /in/2021/01/01/00/00. Der neueste Ordner ist /in/2021/01/15/01/45.
Sie müssen einen Pipeline-Trigger konfigurieren, um die folgenden Anforderungen zu erfüllen:
* Vorhandene Daten müssen geladen werden.
* Die Daten müssen alle 30 Minuten geladen werden.
* Verspätet eintreffende Daten von bis zu zwei Minuten müssen für den Zeitpunkt, zu dem die Daten hätten eintreffen sollen, in die Last einbezogen werden.
Wie sollten Sie den Pipeline-Trigger konfigurieren? Um zu antworten, wählen Sie im Antwortbereich die entsprechenden Optionen aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.
正解:
Explanation:
Box 1: Tumbling window
To be able to use the Delay parameter we select Tumbling window.
Box 2:
Recurrence: 30 minutes, not 32 minutes
Delay: 2 minutes.
The amount of time to delay the start of data processing for the window. The pipeline run is started after the expected execution time plus the amount of delay. The delay defines how long the trigger waits past the due time before triggering a new run. The delay doesn't alter the window startTime.
Reference:
https://docs.microsoft.com/en-us/azure/data-factory/how-to-create-tumbling-window-trigger
Sie planen, eine Azure Data Factory mithilfe der Monitor & Manage-App zu überwachen.
Sie müssen den Status und die Dauer von Aktivitäten ermitteln, die auf eine Tabelle in einer Quelldatenbank verweisen.
Welche drei Aktionen sollten Sie nacheinander ausführen? Um zu antworten, verschieben Sie die Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
Sie müssen den Status und die Dauer von Aktivitäten ermitteln, die auf eine Tabelle in einer Quelldatenbank verweisen.
Welche drei Aktionen sollten Sie nacheinander ausführen? Um zu antworten, verschieben Sie die Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
正解:
Explanation:
Step 1: From the Data Factory authoring UI, generate a user property for Source on all activities.
Step 2: From the Data Factory monitoring app, add the Source user property to Activity Runs table.
You can promote any pipeline activity property as a user property so that it becomes an entity that you can monitor. For example, you can promote the Source and Destination properties of the copy activity in your pipeline as user properties. You can also select Auto Generate to generate the Source and Destination user properties for a copy activity.
Step 3: From the Data Factory authoring UI, publish the pipelines
Publish output data to data stores such as Azure SQL Data Warehouse for business intelligence (BI) applications to consume.
References:
https://docs.microsoft.com/en-us/azure/data-factory/monitor-visually
Sie laden eine Tabelle stapelweise in einen dedizierten SQL-Pool von Azure Synapse Analytics.
Sie müssen Daten aus einer Staging-Tabelle in die Zieltabelle laden. Die Lösung muss sicherstellen, dass alle Einfügungen in diesem Stapel rückgängig gemacht werden, wenn beim Laden der Daten in die Zieltabelle ein Fehler auftritt.
Wie sollten Sie den Transact-SQL-Code vervollständigen? Um zu antworten, ziehen Sie die entsprechenden Werte auf die richtigen Ziele. Jeder Wert kann einmal, mehrmals oder überhaupt nicht verwendet werden. Möglicherweise müssen Sie die Trennleiste zwischen den Fenstern ziehen oder scrollen, um den Inhalt anzuzeigen.
HINWEIS Jede richtige Auswahl ist einen Punkt wert.
Sie müssen Daten aus einer Staging-Tabelle in die Zieltabelle laden. Die Lösung muss sicherstellen, dass alle Einfügungen in diesem Stapel rückgängig gemacht werden, wenn beim Laden der Daten in die Zieltabelle ein Fehler auftritt.
Wie sollten Sie den Transact-SQL-Code vervollständigen? Um zu antworten, ziehen Sie die entsprechenden Werte auf die richtigen Ziele. Jeder Wert kann einmal, mehrmals oder überhaupt nicht verwendet werden. Möglicherweise müssen Sie die Trennleiste zwischen den Fenstern ziehen oder scrollen, um den Inhalt anzuzeigen.
HINWEIS Jede richtige Auswahl ist einen Punkt wert.
正解:
Explanation:
Sie verfügen über einen SQL-Pool in Azure Synapse, der eine Tabelle mit dem Namen „dbo.Customers“ enthält. Die Tabelle enthält eine Spalte mit dem Namen E-Mail.
Sie müssen verhindern, dass Benutzer ohne Administratorrechte die vollständigen E-Mail-Adressen in der Spalte „E-Mail“ sehen. Den Benutzern müssen stattdessen Werte im Format [email protected] angezeigt werden.
Was sollte man tun?
Sie müssen verhindern, dass Benutzer ohne Administratorrechte die vollständigen E-Mail-Adressen in der Spalte „E-Mail“ sehen. Den Benutzern müssen stattdessen Werte im Format [email protected] angezeigt werden.
Was sollte man tun?
正解:A
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie müssen versionierte Änderungen an den Integrationspipelines implementieren. Die Lösung muss die Datenintegrationsanforderungen erfüllen.
In welcher Reihenfolge sollten Sie die Aktionen ausführen? Um zu antworten, verschieben Sie alle Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
In welcher Reihenfolge sollten Sie die Aktionen ausführen? Um zu antworten, verschieben Sie alle Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
正解:
Explanation:
Scenario: Identify a process to ensure that changes to the ingestion and transformation activities can be version-controlled and developed independently by multiple data engineers.
Step 1: Create a repository and a main branch
You need a Git repository in Azure Pipelines, TFS, or GitHub with your app.
Step 2: Create a feature branch
Step 3: Create a pull request
Step 4: Merge changes
Merge feature branches into the main branch using pull requests.
Step 5: Publish changes
Reference:
https://docs.microsoft.com/en-us/azure/devops/pipelines/repos/pipeline-options-for-git
Sie verfügen über ein Azure Data Lake Storage Gen2-Konto, das eine JSON-Datei für Kunden enthält. Die Datei enthält zwei Attribute namens FirstName und LastName.
Sie müssen die Daten mithilfe von Azure Databricks aus der JSON-Datei in eine Azure Synapse Analytics-Tabelle kopieren.
Es muss eine neue Spalte erstellt werden, die die Werte „FirstName“ und „LastName“ verkettet.
Sie erstellen folgende Komponenten:
* Eine Zieltabelle in Azure Synapse
* Ein Azure Blob Storage-Container
* Ein Dienstleiter
Welche fünf Aktionen sollten Sie als Nächstes in diesem Databricks-Notizbuch nacheinander ausführen? Um zu antworten, verschieben Sie die entsprechenden Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
Sie müssen die Daten mithilfe von Azure Databricks aus der JSON-Datei in eine Azure Synapse Analytics-Tabelle kopieren.
Es muss eine neue Spalte erstellt werden, die die Werte „FirstName“ und „LastName“ verkettet.
Sie erstellen folgende Komponenten:
* Eine Zieltabelle in Azure Synapse
* Ein Azure Blob Storage-Container
* Ein Dienstleiter
Welche fünf Aktionen sollten Sie als Nächstes in diesem Databricks-Notizbuch nacheinander ausführen? Um zu antworten, verschieben Sie die entsprechenden Aktionen aus der Aktionsliste in den Antwortbereich und ordnen Sie sie in der richtigen Reihenfolge an.
正解:
Explanation:
1) mount onto DBFS
2) read into data frame
3) transform data frame
4) specify temporary folder
5) write the results to table in in Azure Synapse
https://docs.databricks.com/data/data-sources/azure/azure-datalake-gen2.html https://docs.microsoft.com/en-us
/azure/databricks/scenarios/databricks-extract-load-sql-data-warehouse
Sie verfügen über eine Azure Data Factory, die 10 Pipelines enthält.
Sie müssen jede Pipeline mit ihrem Hauptzweck kennzeichnen: entweder Aufnahme, Transformation oder Laden. Die Beschriftungen müssen zum Gruppieren und Filtern verfügbar sein, wenn Sie die Überwachungserfahrung in Data Factory verwenden.
Was sollten Sie jeder Pipeline hinzufügen?
Sie müssen jede Pipeline mit ihrem Hauptzweck kennzeichnen: entweder Aufnahme, Transformation oder Laden. Die Beschriftungen müssen zum Gruppieren und Filtern verfügbar sein, wenn Sie die Überwachungserfahrung in Data Factory verwenden.
Was sollten Sie jeder Pipeline hinzufügen?
正解:A
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie verfügen über einen Azure Synapse-Arbeitsbereich namens MyWorkspace, der eine Apache Spark-Datenbank namens mytestdb enthält.
Sie führen den folgenden Befehl in einem Azure Synapse Analytics Spark-Pool in MyWorkspace aus.
TABELLE ERSTELLEN mytestdb.myParquetTable(
EmployeeID int,
EmployeeName-Zeichenfolge,
EmployeeStartDate (Datum)
VERWENDUNG von Parkett
Anschließend verwenden Sie Spark, um eine Zeile in mytestdb.myParquetTable einzufügen. Die Zeile enthält die folgenden Daten.
Eine Minute später führen Sie die folgende Abfrage aus einem serverlosen SQL-Pool in MyWorkspace aus.
Wählen Sie Mitarbeiter-ID aus
VON mytestdb.dbo.myParquetTable
WHERE name = 'Alice';
Was wird von der Abfrage zurückgegeben?
Sie führen den folgenden Befehl in einem Azure Synapse Analytics Spark-Pool in MyWorkspace aus.
TABELLE ERSTELLEN mytestdb.myParquetTable(
EmployeeID int,
EmployeeName-Zeichenfolge,
EmployeeStartDate (Datum)
VERWENDUNG von Parkett
Anschließend verwenden Sie Spark, um eine Zeile in mytestdb.myParquetTable einzufügen. Die Zeile enthält die folgenden Daten.
Eine Minute später führen Sie die folgende Abfrage aus einem serverlosen SQL-Pool in MyWorkspace aus.
Wählen Sie Mitarbeiter-ID aus
VON mytestdb.dbo.myParquetTable
WHERE name = 'Alice';
Was wird von der Abfrage zurückgegeben?
正解:B
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Sie entwerfen eine Azure Data Lake Storage-Lösung, die JSON-Rohdateien für die Verwendung in einer analytischen Arbeitslast umwandelt.
Sie müssen ein Format für die transformierten Dateien empfehlen. Die Lösung muss folgende Anforderungen erfüllen:
* Enthält Informationen zu den Datentypen jeder Spalte in den Dateien.
* Unterstützt das Abfragen einer Teilmenge von Spalten in den Dateien.
* Unterstützung leseintensiver Analyse-Workloads.
* Minimieren Sie die Dateigröße.
Was sollten Sie empfehlen?
Sie müssen ein Format für die transformierten Dateien empfehlen. Die Lösung muss folgende Anforderungen erfüllen:
* Enthält Informationen zu den Datentypen jeder Spalte in den Dateien.
* Unterstützt das Abfragen einer Teilmenge von Spalten in den Dateien.
* Unterstützung leseintensiver Analyse-Workloads.
* Minimieren Sie die Dateigröße.
Was sollten Sie empfehlen?
正解:C
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)