DP-203日本語 無料問題集「Microsoft Data Engineering on Microsoft Azure (DP-203日本語版)」
Azure Cosmos DB 分析ストアと WS 1 という名前の Azure Synapse Analytics ワークスペースを含む Azure サブスクリプションがあります。WS1 には、サーバーレス SQL プールという名前 Pool1 があります。
Pool1 を使用して次のクエリを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。
注: 正しく選択するたびに 1 ポイントの価値があります。

Pool1 を使用して次のクエリを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。
注: 正しく選択するたびに 1 ポイントの価値があります。

正解:

Explanation:

次の図に示されている Azure Data Factory パイプラインがあります。

次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。 注: 正しい選択はそれぞれ 1 ポイントの価値があります。


次の図は、最初のパイプライン実行の実行ログを示しています。

2 回目のパイプライン実行の実行ログを次の図に示します。

次の各ステートメントについて、該当する場合は [はい] を選択します。それ以外の場合は、[いいえ] を選択します。 注: 正しい選択はそれぞれ 1 ポイントの価値があります。

正解:

Explanation:

次の表に示すリソースを含む Azure サブスクリプションがあります。

Pipeline1 を使用して、Storage1 から SQL1 に Parquet ファイルを取り込む必要があります。ソリューションは次の要件を満たす必要があります。
* 複雑さを最小限に抑えます。
* ファイル内の追加の列が文字列として処理されることを確認してください。
* 追加の列を含むファイルが正常に処理されることを確認します。
Pipeline1 をどのように構成すればよいでしょうか? 回答するには、回答領域で適切なオプションを選択してください。
注: 正しく選択するたびに 1 ポイントの価値があります。


Pipeline1 を使用して、Storage1 から SQL1 に Parquet ファイルを取り込む必要があります。ソリューションは次の要件を満たす必要があります。
* 複雑さを最小限に抑えます。
* ファイル内の追加の列が文字列として処理されることを確認してください。
* 追加の列を含むファイルが正常に処理されることを確認します。
Pipeline1 をどのように構成すればよいでしょうか? 回答するには、回答領域で適切なオプションを選択してください。
注: 正しく選択するたびに 1 ポイントの価値があります。

正解:

Explanation:

3番目の正規形スキーマを使用するMicrosoftSQLServerデータベースがあります。
データベース内のデータを、Azure SynapseAnalytics専用のSQIプール内のスタースキーマに移行することを計画しています。
ディメンションテーブルを設計する必要があります。ソリューションは、読み取り操作を最適化する必要があります。
ソリューションに何を含める必要がありますか?回答するには、回答領域で適切なオプションを選択します。
注:正しい選択はそれぞれ1ポイントの価値があります。

データベース内のデータを、Azure SynapseAnalytics専用のSQIプール内のスタースキーマに移行することを計画しています。
ディメンションテーブルを設計する必要があります。ソリューションは、読み取り操作を最適化する必要があります。
ソリューションに何を含める必要がありますか?回答するには、回答領域で適切なオプションを選択します。
注:正しい選択はそれぞれ1ポイントの価値があります。

正解:

Explanation:

Box 1: Denormalize to a second normal form
Denormalization is the process of transforming higher normal forms to lower normal forms via storing the join of higher normal form relations as a base relation. Denormalization increases the performance in data retrieval at cost of bringing update anomalies to a database.
Box 2: New identity columns
The collapsing relations strategy can be used in this step to collapse classification entities into component entities to obtain #at dimension tables with single-part keys that connect directly to the fact table. The single- part key is a surrogate key generated to ensure it remains unique over time.
Example:

Note: A surrogate key on a table is a column with a unique identifier for each row. The key is not generated from the table data. Data modelers like to create surrogate keys on their tables when they design data warehouse models. You can use the IDENTITY property to achieve this goal simply and effectively without affecting load performance.
Reference:
https://www.mssqltips.com/sqlservertip/5614/explore-the-role-of-normal-forms-in-dimensional-modeling/
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables- identity
Azure Data Lake StorageGen2アカウントへのアクセスを提供する責任があります。
ユーザーアカウントにはストレージアカウントへの寄稿者アクセス権があり、アプリケーションIDとアクセスキーがあります。
PolyBaseを使用して、Azure SynapseAnalyticsのエンタープライズデータウェアハウスにデータをロードすることを計画しています。
データウェアハウスをストレージアカウントに接続するようにPolyBaseを構成する必要があります。
どの3つのコンポーネントを順番に作成する必要がありますか?回答するには、適切なコンポーネントをコンポーネントのリストから回答領域に移動し、正しい順序で配置します。

ユーザーアカウントにはストレージアカウントへの寄稿者アクセス権があり、アプリケーションIDとアクセスキーがあります。
PolyBaseを使用して、Azure SynapseAnalyticsのエンタープライズデータウェアハウスにデータをロードすることを計画しています。
データウェアハウスをストレージアカウントに接続するようにPolyBaseを構成する必要があります。
どの3つのコンポーネントを順番に作成する必要がありますか?回答するには、適切なコンポーネントをコンポーネントのリストから回答領域に移動し、正しい順序で配置します。

正解:

Explanation:

Azure Synapse Analytics 専用 SQL プールにテーブルをバッチで読み込んでいます。
ステージング テーブルからターゲット テーブルにデータをロードする必要があります。ソリューションでは、ターゲット テーブルへのデータのロード中にエラーが発生した場合、そのバッチ内のすべての挿入が元に戻されるようにする必要があります。
Transact-SQL コードをどのように完成させる必要がありますか? 答えるには、適切な値を正しいターゲットにドラッグします。各値は、1 回以上使用することも、まったく使用しないこともできます。ペイン間の分割バーをドラッグするか、コンテンツを表示するためにスクロールする必要がある場合があります。
注: 正しい選択はそれぞれ 1 ポイントの価値があります。

ステージング テーブルからターゲット テーブルにデータをロードする必要があります。ソリューションでは、ターゲット テーブルへのデータのロード中にエラーが発生した場合、そのバッチ内のすべての挿入が元に戻されるようにする必要があります。
Transact-SQL コードをどのように完成させる必要がありますか? 答えるには、適切な値を正しいターゲットにドラッグします。各値は、1 回以上使用することも、まったく使用しないこともできます。ペイン間の分割バーをドラッグするか、コンテンツを表示するためにスクロールする必要がある場合があります。
注: 正しい選択はそれぞれ 1 ポイントの価値があります。

正解:

Explanation:

次の表に示すリソースを含む Azure サブスクリプションがあります。

storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。

組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。


storage1 アカウントには、container1 という名前のコンテナーが含まれています。 Container1 コンテナには次のファイルが含まれています。

組み込みのサーバーレス SQL プールで、次のスクリプトを実行します。

次の各ステートメントについて、そのステートメントが true の場合は [はい] を選択します。それ以外の場合は、「いいえ」を選択します。 注: 正しく選択するたびに 1 ポイントの価値があります。

正解:

Explanation:

Azure Data Factory パイプラインを構築して、Azure Data Lake Storage Gen2 コンテナーから Azure Synapse Analytics 専用 SQL プール内のデータベースにデータを移動します。
コンテナ内のデータは、以下のフォルダ構造で保存されます。
/in/{YYYY}/{MM}/{DD}/{HH}/{mm}
最も古いフォルダーは /in/2021/01/01/00/00 です。最新のフォルダは /in/2021/01/15/01/45 です。
次の要件を満たすようにパイプライン トリガーを構成する必要があります。
既存のデータをロードする必要があります。
データは 30 分ごとにロードする必要があります。
最大 2 分の遅延到着データは、データが到着するはずの時間の負荷に含める必要があります。
パイプライン トリガーをどのように構成する必要がありますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

コンテナ内のデータは、以下のフォルダ構造で保存されます。
/in/{YYYY}/{MM}/{DD}/{HH}/{mm}
最も古いフォルダーは /in/2021/01/01/00/00 です。最新のフォルダは /in/2021/01/15/01/45 です。
次の要件を満たすようにパイプライン トリガーを構成する必要があります。
既存のデータをロードする必要があります。
データは 30 分ごとにロードする必要があります。
最大 2 分の遅延到着データは、データが到着するはずの時間の負荷に含める必要があります。
パイプライン トリガーをどのように構成する必要がありますか?答えるには、答えで適切なオプションを選択します。
注: 正しい選択ごとに 1 ポイントの価値があります。

正解:

Explanation:

Box 1: Tumbling window
To be able to use the Delay parameter we select Tumbling window.
Box 2:
Recurrence: 30 minutes, not 32 minutes
Delay: 2 minutes.
The amount of time to delay the start of data processing for the window. The pipeline run is started after the expected execution time plus the amount of delay. The delay defines how long the trigger waits past the due time before triggering a new run. The delay doesn't alter the window startTime.
Reference:
https://docs.microsoft.com/en-us/azure/data-factory/how-to-create-tumbling-window-trigger
Azure Stream Analytics を使用して、ストリーミング ソーシャル メディア データを取り込む予定です。データは Azure Data Lake Storage のファイルに保存され、Azure Synapse Analytics で Azure Datiabricks と PolyBase を使用して使用されます。
ファイルに対する Databricks および PolyBase からのクエリで発生するエラーが最小限になるように、Stream Analytics データ出力形式を推奨する必要があります。ソリューションは、タイルが迅速にクエリでき、データ型情報が保持されることを保証する必要があります。
何をお勧めしますか?
ファイルに対する Databricks および PolyBase からのクエリで発生するエラーが最小限になるように、Stream Analytics データ出力形式を推奨する必要があります。ソリューションは、タイルが迅速にクエリでき、データ型情報が保持されることを保証する必要があります。
何をお勧めしますか?
正解:D
解答を投票する
解説: (JPNTest メンバーにのみ表示されます)
storage1 という名前の Azure Data Lake Storage Gen2 アカウントと Workspace1 という名前の Azure Synapse Analytics ワークスペースを含む Azure サブスクリプションがあります。Workspace1 にはサーバーレス SQL プールがあります。
サーバーレス SQL プールを使用して、ストレージ 1 内のファイルから顧客の注文を照会します。
次のクエリを実行します。
選択*
FROM OPENROWSET(BULK 'https://storage1.blob.core.windows.net/data/orders/year =* /month =* / *.* ', FORMAT = 'parquet') AS customerorders WHERE customerorders. filepath(1) = '2024' AND customerorders.filepath(2) IN ('3','4'); 次の各ステートメントについて、ステートメントが true の場合は [はい] を選択します。それ以外の場合は [いいえ] を選択します。
注意: 正しい選択ごとに 1 ポイントが付与されます。

サーバーレス SQL プールを使用して、ストレージ 1 内のファイルから顧客の注文を照会します。
次のクエリを実行します。
選択*
FROM OPENROWSET(BULK 'https://storage1.blob.core.windows.net/data/orders/year =* /month =* / *.* ', FORMAT = 'parquet') AS customerorders WHERE customerorders. filepath(1) = '2024' AND customerorders.filepath(2) IN ('3','4'); 次の各ステートメントについて、ステートメントが true の場合は [はい] を選択します。それ以外の場合は [いいえ] を選択します。
注意: 正しい選択ごとに 1 ポイントが付与されます。

正解:

Explanation:
Storage1 provides a hierarchical namespace: Yes
Files from March 2025 will be included: No
Only files that have a Parquet file extension will be included: Yes
Query Breakdown
* Data Source:
* The OPENROWSET function queries data stored in Azure Data Lake Storage Gen2 (storage1) using the serverless SQL pool in Synapse Analytics.
* The data is stored in Parquet files in the folder structure data/orders/year=YYYY/month=MM/.
* Query Filter:
* The filter conditions in the query are:
* customerorders.filepath(1) = '2024': Limits the query to files in the folder year=2024.
* customerorders.filepath(2) IN ('3', '4'): Limits the query to files in the subfolders month=3 or month=4.
* File Format:
* The FORMAT = 'parquet' clause specifies that only Parquet files will be queried.
Statements Analysis
* Storage1 provides a hierarchical namespace.aswer: Yes
* Azure Data Lake Storage Gen2 supports a hierarchical namespace, which enables folder-based organization.
* The folder structure (e.g., data/orders/year=2024/month=3/) demonstrates the use of a hierarchical namespace.
* Files from March 2025 will be included.aswer: No
* The query explicitly filters for year=2024, so files from 2025 will not be included in the results.
* Only files that have a Parquet file extension will be included.aswer: Yes
* The FORMAT = 'parquet' clause in the query ensures that only Parquet files are queried. Files with other extensions (e.g., .csv or .json) will not be included.