DP-203日本語 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」

CSV ファイルを含む Azure Data Lake Storage Gen2 コンテナーを実装する予定です。ファイルのサイズは、1 時間あたりに発生するイベントの数によって異なります。
ファイル サイズの範囲は 4.KB から 5 GB です。
コンテナに保存されているファイルがバッチ処理用に最適化されていることを確認する必要があります。
あなたは何をするべきか?

解説: (JPNTest メンバーにのみ表示されます)
DB1 と DB2 という名前の 2 つの Azure SQL データベースがあります。
DB1 には、Table 1 という名前のテーブルが含まれています。Table1 には、LastModifiedOn という名前のタイムスタンプ列が含まれています。LastModifiedOn には、個々の行の最新の更新のタイムスタンプが含まれています。
DB2 には、Watermark という名前のテーブルが含まれています。Watermark には、WatermarkValue という名前の 1 つのタイムスタンプ列が含まれています。
LastModifiedOn 列に Watermark の WatermarkValue 列の最新の値よりも新しいタイムスタンプが含まれている Table1 のすべての行を Azure Blob Storage に段階的にアップロードする Azure Data Factory パイプラインを作成する予定です。
パイプラインに含めるアクティビティを特定する必要があります。ソリューションは、次の要件を満たす必要があります。
* パイプラインを作成する労力を最小限に抑えます。
* アップロード操作に割り当てられるデータ統合ユニットの数を制御できることを確認してください。
何を特定する必要がありますか?回答するには、回答エリアで適切なオプションを選択します。
正解:

Explanation:
顧客用のJSONファイルを含むAzureData Lake StorageGen2アカウントがあります。このファイルには、FirstNameとLastNameという名前の2つの属性が含まれています。
Azure Databricksを使用して、JSONファイルからAzure SynapseAnalyticsテーブルにデータをコピーする必要があります。
FirstNameとLastNameの値を連結する新しい列を作成する必要があります。
次のコンポーネントを作成します。
* AzureSynapseの宛先テーブル
* AzureBlobストレージコンテナー
*サービスプリンシパル
アクションを実行する順序はどれですか。回答するには、適切なアクションをアクションのリストから回答領域に移動し、正しい順序に並べます。
正解:

Explanation:

Step 1: Mount the Data Lake Storage onto DBFS
Begin with creating a file system in the Azure Data Lake Storage Gen2 account.
Step 2: Read the file into a data frame.
You can load the json files as a data frame in Azure Databricks.
Step 3: Perform transformations on the data frame.
Step 4: Specify a temporary folder to stage the data
Specify a temporary folder to use while moving data between Azure Databricks and Azure Synapse.
Step 5: Write the results to a table in Azure Synapse.
You upload the transformed data frame into Azure Synapse. You use the Azure Synapse connector for Azure Databricks to directly upload a dataframe as a table in a Azure Synapse.
Reference:
https://docs.microsoft.com/en-us/azure/azure-databricks/databricks-extract-load-sql-data-warehouse
Azure SynapseAnalyticsにエンタープライズデータウェアハウスがあります。
PolyBaseを使用して、[Ext]。[Items]という名前の外部テーブルを作成し、データウェアハウスにデータをインポートせずにAzure Data Lake StorageGen2に格納されているParquetファイルをクエリします。
外部テーブルには3つの列があります。
ParquetファイルにItemIDという名前の4番目の列があることがわかります。
ItemID列を外部テーブルに追加するには、どのコマンドを実行する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
Azure SynapseAnalyticsにエンタープライズデータウェアハウスがあります。
データウェアハウスを監視して、現在のワークロードに対応するために、より高いサービスレベルにスケールアップする必要があるかどうかを特定する必要があります。監視するのに最適な指標はどれですか。
複数の回答を選択すると、目標を達成できる場合があります。最良の答えを選択してください。

注:この質問は、同じシナリオを提示する一連の質問の一部です。シリーズの各質問には、述べられた目標を達成する可能性のある独自の解決策が含まれています。一部の質問セットには複数の正しい解決策がある場合がありますが、他の質問セットには正しい解決策がない場合があります。
このセクションの質問に回答した後は、その質問に戻ることはできません。その結果、これらの質問はレビュー画面に表示されません。
ステージングゾーンを含むAzureData LakeStorageアカウントがあります。
ステージングゾーンから増分データを取り込み、Rスクリプトを実行してデータを変換し、変換されたデータをAzure SynapseAnalyticsのデータウェアハウスに挿入する毎日のプロセスを設計する必要があります。
解決策:Rノートブックを実行するAzure Databricksジョブをスケジュールしてから、データウェアハウスにデータを挿入します。
これは目標を達成していますか?

解説: (JPNTest メンバーにのみ表示されます)
Azure Synapse Analytics サーバーレス SQ1 プールがあります。
aols1 という名前の Azure Data Lake Storage アカウントがあり、このアカウントには、container1 という名前のパブリック コンテナーが含まれています。コンテナー 1 コンテナーには、フォルダー 1 という名前のフォルダーが含まれています。
フォルダー 1 内のすべての CSV ファイルの上位 100 行をクエリする必要があります。
クエリをどのように完了しますか? 答えるには、適切な値を正しいターゲットにドラッグします。各値は 1 回使用することも、複数回使用することも、まったく使用しないこともできます。コンテンツを表示するには、ペイン間で分割バーをドラッグするか、スクロールする必要がある場合があります。
注意 正しい選択はそれぞれ 1 ポイントの価値があります。
正解:

Explanation:
workspace1 という名前の Azure Synapse Analytics ワークスペースを含む Azure サブスクリプションがあります。Workspace1 は、repo1 という名前の Azure DevOps リポジトリに接続します。Repo1 には、main という名前のコラボレーション ブランチと、branch1 という名前の開発ブランチが含まれています。Branch1 には、pipeline1 という名前の Azure Synapse パイプラインが含まれています。
ワークスペース 1 で、パイプライン 1 のテストを完了します。
パイプライン 1 を毎日午前 6 時に実行するようにスケジュールする必要があります。
順番に実行する必要がある 4 つのアクションはどれですか? 答えるには、アクションのリストから適切なアクションを回答エリアに移動し、正しい順序で並べます。
注: 回答の選択肢の順序が 1 つ以上正しいです。選択した正しい注文のいずれかに対してクレジットを受け取ります。
正解:

Explanation:
Azure Stream Analytics にストリーミングするソリューションを開発しています。ソリューションには、ストリーミング データと参照データの両方が含まれます。
参照データにはどの入力タイプを使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
分析ワークロードで使用するために raw JSON ファイルを変換する Azure Data Lake Storage ソリューションを設計しています。
変換されたファイルの形式を推奨する必要があります。ソリューションは、次の要件を満たす必要があります。
ファイル内の各列のデータ型に関する情報が含まれています。
ファイル内の列のサブセットのクエリをサポートします。
読み取り負荷の高い分析ワークロードをサポートします。
ファイル サイズを最小化します。
何をお勧めしますか?

解説: (JPNTest メンバーにのみ表示されます)
会社の人材(MR)部門向けのデータマートを設計しています。データマートには、情報と従業員の取引が含まれます。ソースシステムから、次のフィールドを持つフラット抽出があります。
* 従業員ID
* ファーストネーム
* 苗字
*受信者
* GrossArnount
* TransactionID
* GovernmentID
* NetAmountPaid
* TransactionDate
データマート専用のAzureSynapseアナリティクス専用SQLプールで開始スキーマデータモデルを設計する必要があります。
どの2つのテーブルを作成する必要がありますか?それぞれの正解は、ソリューションの一部を示しています。

正解:C、E 解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
Azure Data Lake Storage Gen2 アカウントへのソース データの増分読み込みを実行する Azure Data Factory パイプラインがあります。
ロードされるデータは、ソース テーブルの LastUpdatedDate という名前の列によって識別されます。
パイプラインを 4 時間ごとに実行することを計画しています。
パイプラインの実行が次の要件を満たしていることを確認する必要があります。
同時実行性またはスロットル制限によりパイプラインの実行が失敗した場合に、実行を自動的に再試行します。
テーブル内の既存データのバックフィルをサポートします。
どのタイプのトリガーを使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
Table1 という名前のテーブルを含む Azure Synapse Analytics 専用の SQL プールがあります。
取り込まれ、container1 という名前の Azure Data Lake Storage Gen2 コンテナーに読み込まれるファイルがあります。
ファイルからのデータを Table1 とコンテナー 1 という名前の azure Data Lake Storage Gen2 コンテナーに挿入する予定です。
ファイルのデータを Table1 に挿入し、データを変換する予定です。ファイル内のデータの各行は、Table1 のサービス レイヤーに 1 行を生成します。
ソース データ ファイルが container1 にロードされるときに、DateTime が Table1 の追加の列として保存されることを確認する必要があります。
解決策: 専用の SQL プールを使用して、追加の DateTime 列を持つ外部テーブルを作成します。
これは目標を達成していますか?

Azureのメトリックを使用して、Azure StreamAnalyticsジョブを監視しています。
過去12時間の間に、平均透かし遅延が構成された遅延到着許容値よりも一貫して大きいことがわかります。
この動作の考えられる原因は何ですか?

解説: (JPNTest メンバーにのみ表示されます)
Azure Data Lake Storage Gen2 を使用します。
データがディスクから読み取られるときに、ワークロードがフィルター述語と列プロジェクションを使用してデータをフィルターできることを確認する必要があります。
どの2つのアクションを実行する必要がありますか?それぞれの正解は、ソリューションの一部を示しています。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解:B、C 解答を投票する

弊社を連絡する

我々は12時間以内ですべてのお問い合わせを答えます。

オンラインサポート時間:( UTC+9 ) 9:00-24:00
月曜日から土曜日まで

サポート:現在連絡