Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

質問 1

ETL パイプラインを管理しています。Dataflow で実行されているストリーミングパイプラインが受信データの処理に時間がかかり、出力の遅延を引き起こしていることに気づきました。また、パイプライングラフが Dataflow によって自動的に最適化され、1 つのステップに統合されていることにも気付きました。潜在的なボトルネックが発生している場所を特定したいと考えています。どうすればよいでしょうか。

（A）各処理ステップの後に Reshuffle 操作を挿入し、Dataflow コンソールで実行の詳細を監視します。

（B）各キー処理ステップの後に出力シンクを挿入し、各ブロックの書き込みスループットを観察します。

（C）各 ParDo 関数のデバッグ情報をログに記録し、実行時にログを分析します。

（D）Dataflow サービスアカウントに、処理されたデータを出力シンクに書き込むための適切な権限があることを確認します。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 2

Pub/Sub トピックから読み取る Apache Beam 処理パイプラインを設計しました。トピックのメッセージ保持期間は 1 日で、Cloud Storage バケットに書き込みます。RPO が 15 分であるリージョン停止が発生した場合にデータ損失を防ぐには、バケットの場所と処理戦略を選択する必要があります。どうすればよいでしょうか。

（A）1 マルチリージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを60分前に戻す
4 セカンダリリージョンでデータフロージョブを開始する

（B）1. ターボレプリケーションを有効にしたデュアルリージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを60分前に戻す
4 セカンダリリージョンで Dataflow ジョブを開始します。

（C）1 リージョンの Cloud Storage バケットを使用する
2 Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを1日前まで遡って検索する
4 セカンダリリージョンでデータフロージョブを開始し、同じリージョンのバケットに書き込む

（D）1. デュアルリージョンの Cloud Storage バケットを使用します。
2. Cloud Monitoring を使用して Dataflow 指標を監視し、いつ停止が発生したかを判断する
3 確認済みのメッセージを回復するために、サブスクリプションを15分前に戻す
4 セカンダリリージョンでデータフロージョブを開始する

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 3

BigQuery ML で線形回帰モデルを作成し、顧客が自社の製品を購入する可能性を予測しています。モデルでは、都市名変数を主要な予測コンポーネントとして使用しており、モデルをトレーニングして提供するには、データを列に整理する必要があります。予測可能な変数を維持しながら、最小限のコーディングでデータを準備したいと考えています。どうすればよいでしょうか。

（A）TensorFlow を使用して、語彙リストを含むカテゴリ変数を作成します。語彙ファイルを作成し、それをモデルの一部として BigQuery ML にアップロードします。

（B）Cloud Data Fusion を使用して、各都市を 1、2、3、4、または 5 のラベルが付けられた地域に割り当て、その番号を使用してモデル内で都市を表します。

（C）BigQuery の SQL を使用して、ワンホットエンコーディング方式で古い列を変換し、各都市をバイナリ値を持つ列にします。

（D）都市情報の列を含まない新しいビューを BigQuery で作成します。

正解：B 解答を投票する

質問 4

あなたは、さまざまなストレージサービスでそれぞれのデータ所有者によってデータが整理および管理されている医療組織の一員です。この分散型エコシステムの結果、データの検出と管理が困難になっています。組織を支援するために、コストを最適化したソリューションを迅速に特定して実装する必要があります。
* データ管理と発見
* データ系統の追跡
* データ品質の検証
ソリューションをどのように構築すればよいでしょうか?

（A）BigOuery を使用してデータ系統を追跡し、Dataprep を使用してデータを管理し、データ品質の検証を実行します。

（B）Dataplex を使用して、データを管理し、データ系統を追跡し、データ品質の検証を実行します。

（C）BigLake を使用して、現在のソリューションをデータレイクアーキテクチャに変換します。

（D）新しいソースのオンボーディングとデータ系統の追跡に役立つ新しいデータ検出ツールを Google Kubernetes Engine 上に構築します。

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 5

社内の IT アプリケーションの 1 つと Google BigQuery を統合して、ユーザーがアプリケーションのインターフェースから BigQuery にクエリを実行できるようにします。個々のユーザーに BigQuery への認証を行わせたり、データセットへのアクセス権を与えたりすることは望ましくありません。IT アプリケーションから BigQuery に安全にアクセスする必要があります。
何をすべきでしょうか?

（A）シングルサインオン（SSO）プラットフォームと統合し、クエリリクエストとともに各ユーザーの資格情報を渡します。

（B）ダミーユーザーを作成し、そのユーザーにデータセットへのアクセスを許可します。そのユーザーのユーザー名とパスワードをファイルシステム上のファイルに保存し、その認証情報を使用して BigQuery データセットにアクセスします。

（C）ユーザーのグループを作成し、そのグループにデータセットへのアクセス権を付与します。

（D）サービスアカウントを作成し、そのアカウントにデータセットへのアクセスを許可します。データセットにアクセスするには、サービスアカウントの秘密鍵を使用します。

正解：D 解答を投票する

質問 6

特定の日に雨が降るかどうかを予測するモデルを構築しています。入力特徴は数千個あり、一部の特徴を削除することで、モデルの精度への影響を最小限に抑えながらトレーニング速度を向上できるかどうかを確認したいと考えています。何ができるでしょうか?

（A）出力ラベルと相関性の高い特徴を排除します。

（B）各特徴量を個別に入力するのではなく、3 つのバッチで値を平均します。

（C）トレーニングレコードの 50% を超える部分に null 値を持つ機能を削除します。

（D）相互依存性の高い機能を 1 つの代表的な機能に結合します。

正解：D 解答を投票する

質問 7

Cloud Composer を使用して ETL パイプラインをオーケストレートします。Apache Airflow 有向非巡回グラフ (DAG) のタスクの 1 つはサードパーティのサービスに依存しています。タスクが成功しなかった場合に通知を受け取りたいのですが、どうすればよいですか。

（A）リスクのあるタスクを担当するオペレーターの on_retry_callback パラメータに通知ロジックを持つ関数を割り当てます。

（B）リスクのあるタスクを担当するオペレーターの sla_miss_callback パラメータに通知ロジックを持つ関数を割り当てます。

（C）リスクのあるタスクに関連付けられた sla_missed 指標に対して Cloud Monitoring アラートを構成して、通知をトリガーします。

（D）リスクのあるタスクを担当するオペレーターの on_failure_callback パラメータに通知ロジックを持つ関数を割り当てます。

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 8

BigQuery オンデマンド環境を管理しています。ビジネスインテリジェンスツールは、日レベルと月レベルで大規模な (50 TB) 販売履歴ファクトテーブルを集計するクエリを毎日何百も送信しています。これらのクエリの応答時間は遅く、コストの予想を超えています。応答時間を短縮し、クエリコストを削減し、メンテナンスを最小限に抑える必要があります。どうすればよいでしょうか。

（A）売上テーブルの上にマテリアライズドビューを構築し、日レベルと月レベルでデータを集計します。

（B）売上テーブルの上に承認済みビューを構築し、日レベルと月レベルでデータを集計します。

（C）Bl Engine を有効にし、販売テーブルを優先テーブルとして追加します。

（D）スケジュールされたクエリを作成して、売上日と売上月を 1 時間ごとに集計テーブルを作成します。

正解：A 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 9

金融市場データを消費者と共有し、消費者がデータフィードを受信するためのアプリケーションを構築しています。データは市場からリアルタイムで収集されます。消費者は次の方法でデータを受け取ります。
リアルタイムイベントストリーム
リアルタイムストリームと履歴データへのANSI SQLアクセス
履歴エクスポートの一括処理
どのソリューションを使用すべきでしょうか?

（A）Cloud Dataproc、Cloud Dataflow、BigQuery

（B）Cloud Pub/Sub、Cloud Storage、BigQuery

（C）Cloud Pub/Sub、Cloud Dataproc、Cloud SQL

（D）Cloud Dataflow、Cloud SQL、Cloud Spanner

正解：D 解答を投票する

質問 10

Pll (個人識別情報) データが含まれる可能性のあるファイルを Cloud Storage に、そして最終的には BigQuery にストリーミングするティールライム予測エンジンを構築しています。名前とメールアドレスは結合キーとしてよく使用されるため、機密データがマスクされていても参照整合性が維持されるようにする必要があります。権限のない個人が Pll データにアクセスできないようにするには、Cloud Data Loss Prevention API (DLP API) をどのように使用すればよいですか。

（A）すべてのPllデータを編集し、編集されていないデータのバージョンをロックダウンされたバケットに保存します。

（B）BigQuery内のすべてのテーブルをスキャンし、Pllを含むデータが見つかった場合はマスクします。

（C）Pll データを暗号化トークンに置き換えて仮名を作成し、トークン化されていないデータをロックダウンされたボタンに保存します。

（D）Pllデータを暗号形式保存トークンに置き換えて仮名を作成する

正解：C 解答を投票する

質問 11

BigQuery のデータ変換ソリューションを設計しています。開発者は SOL に精通しており、ELT 開発手法を使用したいと考えています。さらに、開発者は直感的なコーディング環境と、SQL をコードとして管理する能力を必要としています。開発者がこれらのパイプラインを構築するためのソリューションを特定する必要があります。何をすべきでしょうか?

（A）Data Fusion を使用して ETL パイプラインを構築および実行する

（B）Dataflow ジョブを使用して Pub/Sub からデータを読み取り、データを変換し、BigQuery に読み込みます。

（C）Dataform を使用して、SQL パイプラインを構築、管理、スケジュールします。

（D）Cloud Composer を使用してデータを読み込み、BigQuery ジョブ演算子を使用して SQL パイプラインを実行します。

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 12

金融サービス会社はクラウドテクノロジーに移行しており、50 TB の金融時系列データをクラウドに保存したいと考えています。このデータは頻繁に更新され、常に新しいデータがストリーミングされます。また、このデータから洞察を得るために、既存の Apache Hadoop ジョブをクラウドに移行したいと考えています。
データを保存するためにどの製品を使用すればよいでしょうか?

（A）Google クラウドストレージ

（B）クラウドビッグテーブル

（C）Google BigQuery

（D）Google Cloud データストア

正解：B 解答を投票する

質問 13

数百万件の機密性の高い患者記録をリレーショナルデータベースから BigQuery にコピーする必要があります。データベースの合計サイズは 10 TB です。安全で時間効率の良いソリューションを設計する必要があります。どうすればよいでしょうか。

（A）データベースからレコードを Avro ファイルとしてエクスポートします。ファイルを Transfer Appliance にコピーして Google に送信し、GCP Console の BigQuery ウェブ UI を使用して Avro ファイルを BigQuery に読み込みます。

（B）データベースのレコードを CSV ファイルにエクスポートします。CSV ファイルのパブリック URL を作成し、Storage Transfer Service を使用してファイルを Cloud Storage に移動します。GCP Console の BigQuery ウェブ UI を使用して、CSV ファイルを BigQuery に読み込みます。

（C）データベースからレコードを Avro ファイルとしてエクスポートします。gsutil を使用してファイルを GCS にアップロードし、GCP Console の BigQuery ウェブ UI を使用して Avro ファイルを BigQuery に読み込みます。

（D）データベースからレコードを Avro ファイルとしてエクスポートします。Avro ファイルの公開 URL を作成し、Storage Transfer Service を使用してファイルを Cloud Storage に移動します。GCP Console の BigQuery ウェブ UI を使用して、Avro ファイルを BigQuery に読み込みます。

正解：C 解答を投票する

質問 14

Google Cloud Bigtable スキーマを設計するときは、_________ することをお勧めします。

（A）NoSQL の概念に基づいたスキーマ設計を避ける

（B）行間の原子性を必要とするスキーマ設計を作成する

（C）リレーショナルデータベース設計に基づいたスキーマ設計を作成する

（D）行間の原子性を必要とするスキーマ設計を避ける

正解：D 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 15

パソコンのウェブブラウザから Cloud Dataproc クラスタにウェブトラフィックデータを安全に転送するには、_____ を使用する必要があります。

（A）特別なブラウザ

（B）VPN接続

（C）SSHトンネル

（D）FTP接続

正解：C 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 16

現在のオンプレミスの Apache Hadoop デプロイメントをクラウドに移行する予定です。デプロイメントが、長時間実行されるバッチジョブに対して可能な限りフォールトトレラントかつコスト効率に優れていることを確認する必要があります。マネージドサービスを使用したいと考えています。どうすればよいでしょうか。

（A）標準インスタンスを含む 10 ノードの Compute Engine インスタンスグループに Hadoop と Spark をインストールします。Cloud Storage コネクタをインストールし、データを Cloud Storage に保存します。スクリプト内の参照を hdfs:// から gs:// に変更します。

（B）プリエンプティブインスタンスを含む 10 ノードの Compute Engine インスタンスグループに Hadoop と Spark をインストールします。データを HDFS に保存します。スクリプト内の参照を hdfs:// から gs:// に変更します。

（C）Cloud Dataproc クラスタをデプロイします。標準の永続ディスクと 50% のプリエンプティブワーカーを使用します。データを Cloud Storage に保存し、スクリプト内の参照を hdfs:// から gs:// に変更します。

（D）Cloud Dataproc クラスタをデプロイします。SSD 永続ディスクと 50% のプリエンプティブワーカーを使用します。データを Cloud Storage に保存し、スクリプト内の参照を hdfs:// から gs:// に変更します。

正解：C 解答を投票する

質問 17

Cloud Bigtable スキーマの行キーを設計する際の一般的な推奨事項は何ですか?

（A）行を8ビット整数として保持します

（B）行キーを適度に短く保つ

（C）フィールドが許す限り行キーを保持します

（D）行キー内に複数の時系列値を含める

正解：B 解答を投票する

解説: (JPNTest メンバーにのみ表示されます)

質問 18

あなたは自動車メーカーに勤務しており、異常なセンサーイベントをキャプチャするために Google Cloud Pub/Sub を使用してデータパイプラインを設定しました。Cloud Pub/Sub のプッシュサブスクリプションを使用して、発生した異常なイベントに対処するために作成したカスタム HTTPS エンドポイントを呼び出しています。カスタム HTTPS エンドポイントは、大量の重複メッセージを受信し続けています。これらの重複メッセージの原因として最も可能性が高いのは何でしょうか。

（A）Cloud Pub/Sub トピックに公開されているメッセージが多すぎます。

（B）センサーイベントのメッセージ本文が大きすぎます。

（C）カスタムエンドポイントが確認期限内にメッセージを確認していません。

（D）カスタムエンドポイントに古い SSL 証明書があります。

正解：D 解答を投票する

Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

弊社を連絡する

関連リンク

トップ試験

Professional-Data-Engineer日本語 無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

弊社を連絡する

関連リンク

トップ試験

Professional-Data-Engineer日本語無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」