Professional-Data-Engineer日本語 無料問題集「Google Certified Professional Data Engineer Exam (Professional-Data-Engineer日本語版)」

金融市場データを消費者と共有するアプリケーションを構築しています。消費者はデータフィードを受け取ります。
データは市場からリアルタイムで収集されます。消費者は次の方法でデータを受け取ります。
*リアルタイムのイベントストリーム
*リアルタイムストリームおよび履歴データへのANSISQLアクセス
*バッチ履歴エクスポート
どのソリューションを使用する必要がありますか?

Cloud Dataproc Viewerはどのアクションを実行できますか?

解説: (JPNTest メンバーにのみ表示されます)
米国を拠点とする会社が、ユーザーの行動を評価して対応するためのアプリケーションを作成しました。
プライマリテーブルのデータ量は、1秒あたり250,000レコードずつ増加します。多くのサードパーティは、アプリケーションのAPIを使用して、独自のフロントエンドアプリケーションに機能を組み込みます。アプリケーションのAPIは、次の要件に準拠している必要があります。
*単一のグローバルエンドポイント
* ANSISQLのサポート
*最新のデータへの一貫したアクセス
あなたは何をするべきか?

あなたは、顧客が e コマース サイトで購入する可能性を予測する、新しいディープ チーミング モデルを開発しています。元のトレーニング データと新しいテスト データの両方に対してモデルの評価を実行すると、モデルがデータを過剰適合していることがわかります。新しいデータを予測する際のモデルの精度を向上させたいと考えています。あなたは何をするべきか?

解説: (JPNTest メンバーにのみ表示されます)
あなたのスタートアップは正式なセキュリティポリシーを実装したことがありません。現在、社内の全員がGoogleBigQueryに保存されているデータセットにアクセスできます。チームは、適切と思われるサービスを自由に使用でき、ユースケースを文書化していません。データウェアハウスを保護するように求められました。あなたは誰もが何をしているのかを発見する必要があります。あなたは最初に何をすべきですか?

Cloud Storage にデータを保存するアプリケーションのアーキテクチャを設計しています。アプリケーションは、生データを含む Cloud Storage バケットからデータを読み取り、処理後にそのデータを 2 番目のバケットに書き込むパイプラインで構成されています。Google Cloud のリージョン障害が発生した場合でも復元力のある Cloud Storage リソースを備えたアーキテクチャを設計したいと考えています。障害が発生した場合は、保存されたデータを使用するアプリケーションに影響を与えずに、リカバリ ポイント目標 (RPO) を最小限に抑える必要があります。どうすればよいでしょうか。

解説: (JPNTest メンバーにのみ表示されます)
あなたの会社は現在、キャンペーンのデータパイプラインを設定しています。すべてのGoogleCloud Pub / Subストリーミングデータについて、重要なビジネス要件の1つは、キャンペーン中に入力とそのタイミングを定期的に識別できるようにすることです。エンジニアは、この目的のためにGoogle CloudDataflowでウィンドウ処理と変換を使用することを決定しました。ただし、この機能をテストすると、すべてのストリーミング挿入でCloudDataflowジョブが失敗することがわかりました。この問題の最も可能性の高い原因は何ですか?

アプリケーションイベントをPub/Subトピックにパブリッシュするパイプラインを設計しています。分析のために結果をBigQueryに読み込む前に、1時間間隔でイベントを集計する必要があります。ソリューションは、大量のイベントを処理してBigQueryに読み込むことができるように、スケーラブルである必要があります。あなたは何をするべきか?

Google Cloud Bigtableスキーマを設計するときは、_________することをお勧めします。

解説: (JPNTest メンバーにのみ表示されます)
組織では、マルチクラウド データ ストレージ戦略を採用しており、Cloud Storage にデータを保存し、Amazon Web Services (AWS) の S3 ストレージ バケットにデータを保存しています。すべてのデータは米国リージョンにあります。データがどのクラウドに保存されているかに関係なく、BigQuery を使用して最新のデータをクエリしたいと考えています。ストレージ バケット内のデータに直接アクセスすることなく、ユーザーが BigQuery からテーブルをクエリできるようにする必要があります。どうすればよいでしょうか。

解説: (JPNTest メンバーにのみ表示されます)
あなたの組織は、6か月間GoogleBigQueryでデータを収集して分析しています。分析されたデータの大部分は、events_partitionedという名前の時間分割テーブルに配置されます。クエリのコストを削減するために、組織はイベントと呼ばれるビューを作成しました。このビューは、過去14日間のデータのみをクエリします。ビューはレガシーSQLで記述されています。来月、既存のアプリケーションはBigQueryに接続して、ODBC接続を介してイベントデータを読み取ります。アプリケーションが接続できることを確認する必要があります。あなたはどちらの2つの行動を取るべきですか? (2つ選択してください。)

正解:A、E 解答を投票する
あなたは、さまざまなストレージ サービスの各データ所有者によってデータが整理および管理されている医療組織の一員です。この分散型エコシステムの結果、データの検出と管理が困難になっています。次の点で組織を支援する、コストが最適化されたソリューションを迅速に特定して実装する必要があります。
* データの管理と検出
* データリネージの追跡
* データ品質の検証
ソリューションをどのように構築すればよいでしょうか?

解説: (JPNTest メンバーにのみ表示されます)
コストとパフォーマンスについてクエリを最適化する必要があります。データをどのように構成する必要がありますか?

データがパイプラインに入った時間に基づいて、無制限のデータソースのデータを1時間ごとに集約するには、どのクラウドデータフロー/ビーム機能を使用する必要がありますか?

解説: (JPNTest メンバーにのみ表示されます)
BigQuery にデータがあり、会社のレポートを生成するために使用されます。週次エグゼクティブ レポートの一部のフィールドが会社の標準に従った形式に対応していないことに気づきました。たとえば、レポートのエラーには、異なる電話形式や異なる国コード ID が含まれます。これは頻繁に発生する問題であるため、データを正規化するための定期的なジョブを作成する必要があります。コーディングを必要としない迅速なソリューションが必要です。どうすればよいでしょうか?

解説: (JPNTest メンバーにのみ表示されます)
組織内のさまざまなチームが顧客データとパフォーマンス データを BigOuery に保存しています。各チームは収集したデータを完全に制御し、プロジェクト内でデータを照会し、他のチームとデータを交換できる必要があります。運用タスクとコストを最小限に抑えながら、組織全体のソリューションを実装する必要があります。どうすればよいでしょうか。

解説: (JPNTest メンバーにのみ表示されます)
BigQueryによって処理される列の数を減らすために使用できるSQLキーワードはどれですか?

解説: (JPNTest メンバーにのみ表示されます)
MJTelcoが1日あたりの取り込みに関心を持っているレコードストリームを考えると、GoogleBigQueryのコストが増加することを懸念しています。 MJTelcoは、設計ソリューションを提供するように依頼します。それらには、tracking_tableと呼ばれる単一の大きなデータテーブルが必要です。さらに、毎日のイベントの詳細な分析を実行しながら、毎日のクエリのコストを最小限に抑えたいと考えています。また、ストリーミング取り込みを使用したいと考えています。あなたは何をするべきか?

弊社を連絡する

我々は12時間以内ですべてのお問い合わせを答えます。

オンラインサポート時間:( UTC+9 ) 9:00-24:00
月曜日から土曜日まで

サポート:現在連絡