Google Cloud Certified - Professional Data Engineer

※ 他の問題集は「タグ:Professional Data Engineer の模擬問題集」から一覧いただけます。

この模擬問題集は「Professional Data Engineer Practice Exam (2021.03.05)」の回答・参考リンクを改定した日本語版の模擬問題集です。

Google Cloud 認定資格 – Professional Data Engineer – 模擬問題集(全 41問)


Question 1

この会社では配送ラインにカメラを追加して輸送中の荷物の視覚的な損傷を検出して追跡したいと考えています。
破損した荷物の検出を自動化して荷物が輸送中にリアルタイムで人間が確認できるようにフラグを立てる方法を作成する必要があります。
どのソリューションを選択すべきでしょうか?

  • A. Google BigQuery ML を使用してモデルを大規模にトレーニングできるため、パッケージをバッチで分析できるようにします。
  • B. 画像のコーパス上で Google Cloud AutoML モデルをトレーニングしてそのモデルを中心とした API を構築してパッケージ追跡アプリケーションと統合します。
  • C. Google Cloud Vision API を使用して損傷を検出して Google Cloud Functions を通じてアラートを発行します。パッケージ追跡アプリケーションをこの機能と統合します。
  • D. TensorFlow を使用して画像のコーパス上で訓練されるモデルを作成します。Google Cloud Datalab でこのモデルを使用するPython ノートブックを作成して破損したパッケージの分析ができるようにします。

Correct Answer: B


Question 2

運送会社は出荷ラベルを読み取るためにハンドヘルド スキャナーを使用しています。
会社には厳しいデータプライバシー基準があり、スキャナーは受信者の個人情報(PII)のみを分析システムに送信する必要があります。これはユーザーのプライバシールールに違反します。分析システムへのPII の流出を防ぐためにクラウド ネイティブのマネージドサービスを使用して拡張性のあるソリューションを迅速に構築したいと考えています。
どうすればよいでしょうか?

  • A. Google BigQuery で承認済みビューを作成して機密データのあるテーブルへのアクセスを制限します。
  • B. Google Compute Engine 仮想マシンにサードパーティのデータ検証ツールをインストールして受信データの機密情報を確認します。
  • C. Stackdriver Logging を使用してパイプライン全体を通過するデータを分析して機密情報を含む可能性のあるトランザクションを特定します。
  • D. トピックを読み取り、Google Cloud Data Loss Prevention API への呼び出しを行う Google Cloud Function を作成します。タグ付けと信頼度を使用してレビューのためにバケット内のデータを渡すか隔離します。

Correct Answer: D


Question 3

広告会社は広告ブロックでのクリックスルー率を予測するSpark ML モデルを開発しました。
これまでオンプレミスのデータセンターですべての開発を行っていましたが、このたび Google Cloud に移行することになりました。データセンターの閉鎖が間近に迫っているため、迅速なLift & Shift が必要です。しかし、これまで使用していたデータは Google BigQueryに移行されます。Spark ML モデルを定期的に再トレーニングするため、既存のトレーニングパイプラインを Google Cloud に移行する必要があります。
何をすべきでしょうか?

  • A. 既存のSpark ML モデルのトレーニングに Google Cloud ML Engine を使用します。
  • B. TensorFlow でモデルを書き換え、Google Cloud ML Engine の使用を開始します。
  • C. 既存のSpark ML モデルのトレーニングに Google Cloud Dataproc を使用しますが Google BigQuery から直接データの読み取りを開始します。
  • D. Google Compute Engine でSpark クラスタを起動して Google BigQuery からエクスポートしたデータでSpark ML モデルをトレーニングします。

Correct Answer: C

Reference contents:
機械学習で Dataproc、BigQuery、Apache Spark ML を使用する


Question 4

経済コンサルティング会社は企業が経済動向を把握するのを支援しています。
分析の一環として Google BigQuery を使用して顧客データと、パン、ガソリン、牛乳など最も一般的に販売されている 100 商品の平均価格を関連付けています。これらの商品の平均価格は 30分ごとに更新されます。このデータを最新の状態に保つことで Google BigQuery の他のデータとできるだけ安く組み合わせることができるようにしたいと考えています。
どうすればいいのでしょうか?

  • A. Google BigQuery の新しいパーティショニングされたテーブルに 30分ごとにデータをロードします。
  • B. データを Google Cloud Storage リージョナル バケットに保存して更新して Google BigQuery でフェデレーションされたデータソースを作成します。
  • C. Google Cloud Datastore にデータを保存します。Google Cloud Dataflow を使用して Google BigQuery をクエリて Google Cloud Datastore に保存されているデータとプログラムでデータを結合します。
  • D. データを Google Cloud Storage リージョナル バケットにファイルで保存します。Google Cloud Dataflow を使用して Google BigQuery をクエリして Google Cloud Storage に保存されているデータとプログラムで組み合わせます。

Correct Answer: B


Question 5

自然言語処理の領域で回帰問題に取り組んでおり、データセットには 100 Mのラベル付きの例があります。
データをランダムにシャッフルし、データセットを訓練サンプルとテストサンプルに(90/10の比率)分割しました。ニューラル ネットワークをトレーニングして テストセットでモデルを評価した後、あなたのモデルのルート平均二乗誤差(RMSE)がトレーニング セットではテストセットの 2倍高いことがわかりました。
どのようにモデルの性能を向上させるべきでしょうか?

  • A. トレインテスト分割でテストサンプルのシェアを増やします。
  • B. より多くのデータを収集してデータセットのサイズを増やしてみます。
  • C. 過剰適合を回避するために正則化手法(バッチ正規化のドロップアウトなど)を試します。
  • D. 追加のレイヤーを導入や使用する語彙やn-gram のサイズを大きくし、モデルの複雑さを増します。

Correct Answer: D


Question 6

利用可能な不動産物件のデータセットに基づいて住宅価格を予測するモデルをトレーニングします。
計画では完全に接続されたニューラル ネットをトレーニングすることになっていますが、データセットには物件の緯度と経度が含まれていることがわかりました。不動産の専門家は物件の位置が価格に大きく影響すると言っていますが、この物理的な依存関係を組み込んだ機能を開発したいと考えています。
何をすべきでしょうか?

  • A. ニューラルネットへの入力ベクトルとして緯度と経度を与えます。
  • B. 緯度と経度の特徴クロスから数値列を作成します。
  • C. 緯度経度の特徴クロスを作成して分単位でバケット化し、最適化時にL1 正則化を使用します。
  • D. 緯度経度の特徴クロスを作成して分単位でバケット化し、最適化時にL2 正則化を使用します。

Correct Answer: C

Reference contents:
BigQuery GIS データの操作
Regularization for Sparsity: L₁ Regularization bookmark_border


Question 7

リアルタイム アプリケーションに Google Cloud Bigtable を使用して読み込みと書き込みが混在する高負荷が発生しています。
最近、追加のユースケースを特定し、データベース全体で特定の統計を計算するための分析ジョブを毎時実行する必要があります。また本番アプリケーションの信頼性と分析作業負荷の両方を確保する必要があります。
何をすべきでしょうか?

  • A. Google Cloud Bigtable ダンプを Google Cloud Storage にエクスポートしてエクスポートしたファイルの上で分析ジョブを実行します。
  • B. マルチ クラスタ ルーティングで既存のインスタンスに 2番目のクラスタを追加して通常のワークロードにはライブトラフィックアプリのプロファイルを使用し、分析作業負荷にはバッチ分析プロファイルを使用します。
  • C. 単一クラスタ ルーティングで既存のインスタンスに 2番目のクラスタを追加して通常の作業負荷にはライブ トラフィック アプリのプロファイルを使用し、分析作業負荷にはバッチ分析プロファイルを使用します。
  • D. 既存のクラスタのサイズを 2回増やしてサイズ変更した新しいクラスタで分析ワークロードを実行します。

Correct Answer: C

Reference contents:
レプリケーション設定の例 #バッチ分析ワークロードを他のアプリケーションから分離する | Cloud Bigtable ドキュメント


Question 8

Hadoop ジョブをオンプレミス クラスタからGoogle Cloud Dataproc と Google Cloud Storage に移行しました。
Spark ジョブは多くのシャッフル操作で構成される複雑な分析ワークロードであり、初期データはパーケットファイル(各平均 200 ~ 400 MBのサイズ)です。Google Cloud Dataproc への移行後にパフォーマンスがいくらか低下するため、最適化を考えています。組織はコストに非常にシビアに感じており、この作業負荷に対してはプリエンプティブル(2台のプリエンプティブルでないワーカー)での Google Cloud Dataproc を引き続き使用する必要があります。
どうすればよいでしょうか?

  • A. Parquet ファイルのサイズを大きくして最低 1 GBであることを確認してください。
  • B. Parquet ファイルの代わりにTFRecords 形式(1ファイルあたり約 200 MB)に切り替えます。
  • C. HDD からSSD に切り替え、初期データを Google Cloud Storage からHDFS にコピーしてSpark ジョブを実行して結果を Google Cloud Storage にコピーして戻します。
  • D. HDD からSSD に切り替え、プリエンプティブル VMの設定をオーバーライドして起動ディスクサイズを増やします。

Correct Answer: C

Reference contents:
Apache Spark ジョブの Dataproc への移行 #パフォーマンスの最適化 | Migrating Hadoop to GCP


Question 9

会社の分析チームはいくつかの異なる指標に基づいてどの顧客が会社と再び仕事をする可能性が最も高いかを判断するために、簡単な統計モデルを構築したいと考えています。
Google Cloud Storage に格納されているデータを使用してApache Spark でモデルを実行したいと考えており、このジョブを実行するために Google Cloud Dataproc を使用することを推奨しています。テストの結果、このワークロードは 15 ノードのクラスタで約 30分で実行でき、結果は Google BigQuery に出力されます。このワークロードを毎週実行する計画です。
クラスタをコスト面でどのように最適化するべきでしょうか?

  • A. ワークロードを Google Cloud Dataflow に移行します。
  • B. クラスタにプリエンプティブル 仮想マシン(VM)を使用します。
  • C. ジョブが高速に実行されるようにより高いメモリのノードを使用します。
  • D. ジョブが高速に実行されるようにワーカーノードにSSD を使用します。

Correct Answer: B


Question 10

会社は多数のニューロンと層を持つ TensorFlow ニューラルネットワークモデルを構築しました。
のモデルはトレーニング データによく適合しますが、新しいデータに対してテストを行うと性能が悪くなります。
これに対処するためにどのような方法がありますか?

  • A. スレッディング
  • B. シリアル化
  • C. ドロップアウト方法
  • D. 次元削減

Correct Answer: C

Reference contents:
A simple deep learning model for stock price prediction using TensorFlow


Question 11

会社は複数の異なるクライアントのデータ処理を処理しています。
各クライアントは独自の分析ツールのスイートを使用することを好み、中には Google BigQuery を利用して直接クエリにアクセスできるようにしているところもあります。クライアントがお互いのデータを見ることができないようにデータを保護とデータへの適切なアクセスを確保する必要があります。
どのステップを取るべきでしょうか?(3つ選んでください)

  • A. 異なるパーティションにデータを読み込みします。
  • B. クライアントごとに異なるデータセットにデータを読み込みします。
  • C. 各クライアントの Google BigQuery データセットを別のテーブルに入れます。
  • D. クライアントのデータセットを承認されたユーザーに制限します。
  • E. データセットへのアクセスをサービス アカウントのみに許可します。
  • F. 各クライアントのユーザに適切なID およびアクセス管理(IAM)ロールを使用する。

Correct Answer: B、D、F


Question 12

会社はハイブリッド クラウドの取り組みを行っています。
クラウド プロバイダのサービス間でデータを移動して各クラウド プロバイダのサービスを活用する複雑なデータ パイプラインがあります。
パイプライン全体のオーケストレーションを行うにはどのクラウド ネイティブ サービスを使用すべきでしょうか?

  • A. Google Cloud Dataflow
  • B. Google Cloud Composer
  • C. Google Cloud Dataprep
  • D. Google Cloud Dataproc

Correct Answer: B


Question 13

会社は Google Cloud Storage と Google Compute Engine のCassandra クラスタに保存されている非常に大規模なデータセットに対して複雑な分析を行いたいと考えているデータサイエンティストを新たに採用しました。
このデータサイエンティストは主に機械学習プロジェクトのためのラベル付きデータセットの作成、いくつかの可視化タスクを行いたいと考えています。データサイエンティストのラップトップはタスクを実行するのに十分なパワーを持っておらず、速度が低下していると報告しています。データサイエンティストがタスクを実行するのを助けたいと思っています。
何をすべきでしょうか?

  • A. ラップトップ上でローカル版のJupiter を実行します。
  • B. ユーザーに Google Cloud Shell へのアクセスを許可します。
  • C. Google Compute Engine のVM で可視化ツールをホストします。
  • D. Google Cloud Datalab をGoogle Compute Engine 仮想マシン(VM)にデプロイします。

Correct Answer: D


Question 14

会社は最近急成長しており、以前よりもかなり高い速度でデータを取り込んでいます。
Apache Hadoopで毎日のバッチ MapReduce 分析ジョブを管理していますが最近のデータの増加により、バッチ ジョブが遅れています。開発チームがコストを増やさずに分析の応答性を向上させる方法を提案するよう求められました。
どのような方法を推奨すべきでしょうか?

  • A. Pig でジョブを書き直します。
  • B. Apache Spark でジョブを書き直します。
  • C. Hadoop クラスタのサイズを増やします。
  • D. Hadoop クラスタのサイズを小さくするだけでなく、Hive でジョブを書き直します。

Correct Answer: B


Question 15

現在、会社はキャンペーンのためのデータ パイプラインの設定を行っています。
すべての Google Cloud Pub/Sub ストリーミングデータについて、重要なビジネス要件の 1つはキャンペーン中の入力とそのタイミングを定期的に識別できることです。エンジニアはこの目的のために Google Cloud Dataflow でウィンドウ化と変換を使用することにしました。しかし、この機能をテストすると Google Cloud Dataflow ジョブがすべてのストリーミング挿入で失敗することがわかりました。
この問題の最も可能性の高い原因は何でしょうか?

  • A. タイムスタンプが割り当てられていないため、ジョブが失敗します。
  • B. 遅れて来るデータに対応するためのトリガーを設定していないため、ジョブが失敗します。
  • C. パイプラインの作成時にジョブが失敗するグローバル ウィンドウ関数を適用していません。
  • D. パイプラインの作成時にジョブが失敗する非グローバル ウィンドウ関数を適用していません。

Correct Answer: D


Question 16

会社は厳しく規制された業界にあります。
要件の 1つは個々のユーザーが業務に必要な最低限の情報のみにアクセスできるようにすることです。この要件を Google BigQuery で実施したいと考えています。
どのようなアプローチを取ることができるでしょうか?(3つ選択してください)

  • A. 特定のテーブルへの書き込みを無効にします。
  • B. 役割によってテーブルへのアクセスを制限します。
  • C. データが常に暗号化されていることを確認します。
  • D. Google BigQuery API へのアクセスを承認されたユーザーに制限します。
  • E. 複数のテーブルまたはデータベース間でデータを分離します。
  • F. Google Stackdriver Audit Logging を使用してポリシー違反を判断します。

Correct Answer: B、D、F


Question 17

会社ではCSV ファイルを Google BigQuery に読み込んでいます。
データは完全に正常にインポートされていますが、インポートされたデータがソース ファイルとバイト単位で一致していません。
この問題の最も可能性の高い原因は何でしょうか?

  • A. Google BigQuery に読み込まれたCSV データにはCSV としてフラグが付けられていません。
  • B. CSV データにインポート時にスキップされた無効な行があります。
  • C. Google BigQuery に読み込まれたCSV データは Google BigQuery のデフォルトのエンコーディングを使用していません。
  • D. CSV データは Google BigQuery に読み込まれる前にETL フェーズを通過していません。

Correct Answer: C

Reference contents:
Cloud Storage からの CSV データの読み込み #CSV データの読み込みの詳細 | BigQuery


Question 18

会社は 30ノードのApache Hadoop クラスタをクラウドに移行しようとしています。
既に作成したHadoop ジョブを再利用してクラスタの管理を可能な限り最小化とクラスタの寿命を超えてデータを永続化できるようにしたいと考えています。
どうすればいいのでしょうか?

  • A. データを処理するための Google Cloud Dataflow ジョブを作成します。
  • B. HDFS に永続ディスクを使用する Google Cloud Dataproc クラスタを作成します。
  • C. 永続ディスクを使用する Google Compute Engine上にHadoop クラスタを作成する。
  • D. Google Cloud Storage コネクタを使用する Google Cloud Dataproc クラスタを作成します。
  • E. ローカル SSD ディスクを使用する Google Compute Engine にHadoop クラスタを作成します。

Correct Answer: D


Question 19

会社は Google CloudDataflow で学習アルゴリズムのデータ前処理を実行しています。
このステップでは多数のデータログが生成されており、チームはそれらを分析したいと考えています。キャンペーンの動的な性質により、データは 1時間ごとに指数関数的に増加しています。
データサイエンティストはログの新しい主要機能のデータを読み取るために次のコードを記述しました。

Google BigQueryIO.Read -
.named("ReadLogData")
.from("clouddataflow-readonly:samples.log_data")

このデータ読み取りのパフォーマンスを向上させたいと考えています。
何をするべきでしょうか?

  • A. コード内でTableReference オブジェクトを指定します。
  • B. .fromQuery 操作を使用してテーブルから特定のフィールドを読み込みます。
  • C. Google BigQuery TableSchema クラスと TableFieldSchema クラスの両方を使用します。
  • D. TableRow オブジェクトを返す変換を呼び出してPCollection の各要素がテーブルの 1行を表します。

Correct Answer: B


Question 20

会社はホリデーシーズン中にリアルタイムのデータを分析して様々なオファーを提供する初のダイナミックキャンペーンを実施しています。
データサイエンティストは 30日間のキャンペーン期間中、1時間ごとに急増するテラバイトのデータを収集しています。Google Cloud Dataflow を使用してデータを前処理し、Google Cloud Bigtable で機械学習モデルに必要な特徴(シグナル)データを収集しています。チームは 10 TBのデータの初期負荷の読み取りと書き込みで最適ではないパフォーマンスを観測しています。コストを最小限に抑えながらこのパフォーマンスを改善したいと考えています。
どうすればいいのでしょうか?

  • A. テーブルの行空間に均等に読み書きを分散させることでスキーマを再定義します。
  • B. BigDate クラスタのサイトが増えるにつれて、時間の経過とともにパフォーマンスの問題は解決されます。
  • C. 単一の行キーを使用してクラスタ内で頻繁に更新する必要がある値を識別するようにスキーマを再設計します。
  • D. オファーを表示するユーザーごとに順次増加する数値 ID に基づいた行キーを使用するようにスキーマを再設計します。

Correct Answer: A

Reference contents:
スキーマの設計 | Cloud Bigtable ドキュメント
Cloud Bigtable のパフォーマンスについて #パフォーマンスの問題のトラブルシューティング


Question 21

会社はデータの取り込みと配信を一元化するためのシステムを選択しています。
要件に対応するために、メッセージングとデータ統合システムを検討しています。
主な要件は以下の通りです。
– トピック内の特定のオフセットを検索する機能。これまでに取得したすべてのデータの最初にさかのぼって検索できること。
– 何百ものトピックのパブリッシュ/サブスクライブのセマンティクスをサポートしていること。
– キーごとの順序付けを保持していること。
どのシステムを選択しますか?

  • A. Apache Kafka
  • B. Google Cloud Storage
  • C. Google Cloud Pub/Sub
  • D. Firebase Cloud Messaging

Correct Answer: A

Reference contents:
メッセージの再生と消去 | Cloud Pub/Sub ドキュメント


Question 22

会社はリアルタイムのセンサーデータを工場のフロアから Google Cloud Bigtable にストリーミングしていますが、パフォーマンスが非常に低いことに気づきました。
リアルタイムダッシュボードに入力するクエリで Google Cloud Bigtable のパフォーマンスを向上させるには行キーをどのように再設計するべきでしょうか?

  • A. <timestamp> 形式の行キーを使用します。
  • B. <sensorid> 形式の行キーを使用します。
  • C. <timestamp>#<sensorid> 形式の行キーを使用します。
  • D. #<sensorid>#<timestamp> 形式の行キーを使用します。

Correct Answer: D

Reference contents:
スキーマの設計 #行キー | Cloud Bigtable ドキュメント


Question 23

会社はWILDCARD テーブルを使用して類似した名前の複数のテーブルにまたがってデータをクエリしています。
現在、SQL 構文は以下のエラーで失敗しています。

# Syntax error : Expected end of statement but got "-" at [4:11]
SELECT age -

FROM -
bigquery-public-data.noaa_gsod.gsod

WHERE -
age != 99
AND_TABLE_SUFFIX = "˜1929'

ORDER BY -
age DESC

どのテーブル名でSQL 構文が正しく動作するでしょうか?

  • A. ‘bigquery-public-data.noaa_gsod.gsod’
  • B. bigquery-public-data.noaa_gsod.gsod*
  • C. ‘bigquery-public-data.noaa_gsod.gsod’*
  • D. ‘bigquery-public-data.noaa_gsod.gsod*'

Correct Answer: D

Reference contents:
ワイルドカード テーブルを使用した複数テーブルに対するクエリ | BigQuery


Question 24

会社は GCP とのハイブリッド デプロイメントを維持しており、匿名化された顧客データに対して分析を実行しています。
データは GCP で実行されているデータ転送サーバーへの並列アップロードを通じてデータセンターから Google Cloud Storage にインポートされます。管理者は毎日の転送に時間がかかりすぎるとの連絡があり、問題の修正して転送速度を最大化したいと考えています。
どのアクションを取るべきでしょうか?

  • A. サーバーのCPU サイズを大きくします。
  • B. サーバーの Google Persistent Disk サイズを大きくします。
  • C. データセンターから GCP へのネットワーク帯域幅を増やします。
  • D. Google Compute Engine から Google Cloud Storage へのネットワーク帯域幅を増やします。

Correct Answer: C

Reference contents:
Google Cloud への移行: 大規模なデータセットの転送 #ネットワーク帯域幅の増強


Question 25

会社では履歴データを Google Cloud Storage にアップロードする必要があります。
セキュリティ ポリシーは外部 IP からオンプレミスのリソースへのアクセスは許可されていません。最初にアップロードした後、既存のオンプレミスのアプリケーションから毎日新しいデータを追加することになります。
どうすればいいのでしょうか?

  • A. オンプレミス サーバーから gsutil rsync を実行します。
  • B. Google Cloud Dataflow を使用して Google Cloud Storage にデータを書き込みます。
  • C. Google Cloud Dataproc にジョブ テンプレートを記述してデータ転送を実行します。
  • D. Google Compute Engine VM にFTP サーバーをインストールしてファイルを受け取り、Google Cloud Storage に移動します。

Correct Answer: A

Reference contents:
Google Cloud への移行: 大規模なデータセットの転送 #Google が提供するオプション


Question 26

会社は毎時 20,000個のファイルを作成しています。
各データファイルは 4 KB 以下のCSV ファイルとしてフォーマットされています。すべてのファイルは処理する前に Google Cloud Platform に取り込む必要があります。会社のサイトは 200 ms の Google Cloud へ遅延があり、インターネット接続の帯域幅は 50 Mbps に制限されています。現在、Google Compute Engine 仮想マシン上にSFTP サーバーをデータ取り込みポイントとして配備しています。専用マシンでローカルのSFTP クライアントを実行してCSV ファイルをそのまま送信しています。
前日のデータが入ったレポートを毎日午前 10時までに経営幹部が利用できるようにすることです。が利用できるようにするのが目標です。帯域幅の使用率はかなり低くても、現在のボリュームにほとんど追いつくことができません。会社では季節性の関係で今後 3ヶ月間はファイル数が 2倍になると予想していると言われています。
どのようなアクションを取るべきでしょうか? (2つ選択してください)

  • A. ファイル転送のレートファイルを増やすためにファイルごとにデータ圧縮を導入します。
  • B. インターネット サービス プロバイダ(ISP)に連絡して最大帯域幅を 100 Mbps 以上にします。
  • C. gsutil ツールを使用してCSV ファイルをストレージ バケットに並列に送信するようにデータ取り込みプロセスを再設計します。
  • D. 1,000 個のファイルをTAR ファイルに組み立てます。代わりにTAR ファイルを送信してCSV ファイルを受け取ったらクラウド上で分解します。
  • E. ネットワーク内に Amazon S3 対応のストレージ エンドポイントを作成し、Google Cloud Storage Transfer Service を利用してオンプレミスのデータを指定のストレージ バケットに転送します。

Correct Answer: A、C

Reference contents:
Cloud Storage のベスト プラクティス #データのアップロード


Question 27

会社ではバッチベースとストリームベースのイベントデータの両方を受信しています。
Google Cloud Dataflow を使用して予測可能な期間内にデータを処理する必要があります。ただし、場合によっては、データの到着が遅れたり、順番が狂ったりすることがあります。
遅延または故障したデータを処理するために Google Cloud Dataflow パイプラインをどのように設計すればいいでしょうか?

  • A. すべてのデータをキャプチャする単一のグローバル ウィンドウを設定します。
  • B. すべての遅延データをキャプチャするようにスライディング ウィンドウを設定します。
  • C. ウォーターマークとタイムスタンプを使用して遅れたデータをキャプチャします。
  • D. すべてのデータソース タイプ(ストリームまたはバッチ)にタイムスタンプがあることを確認し、タイムスタンプを使用して遅延データのロジックを定義します。

Correct Answer: C

Reference contents:
ストリーミング パイプライン #ウォーターマーク | Cloud Dataflow


Question 28

会社は独自のシステムを使用して 6時間ごとにクラウドにデータ取り込みサービスに在庫データを送信しています。
送信されたデータにはいくつかのフィールドのペイロードと送信のタイムスタンプが含まれています。送信に不安がある場合はシステムがデータを再送信します。
データを最も効率的に重複排除するにはどうすればいいでしょうか?

  • A. 各データエントリにグローバル一意識別子(GUID)を割り当てます。
  • B. 各データエントリのハッシュ値を計算してすべての履歴データと比較します。
  • C. 各データエントリをプライマリ キーとして個別のデータベースに保存してインデックスを適用します。
  • D. 各データエントリのハッシュ値とその他のメタデータを格納するデータベーステーブルを維持します。

Correct Answer: A

Reference contents:
よくある質問 #重複するメッセージを検出するにはどうすればよいですか? | Cloud Pub/Sub ドキュメント


Question 29

会社の顧客データベースと注文データベースにしばし大きな負荷が発生します。
そのため、業務に支障をきたさずに分析を実行することが難しくなっています。データベースはMySQL クラスタにあり、mysqldump を使用して毎晩バックアップを取っています。運用への影響を最小限に抑えて分析を実行したいと考えています。
どうすればよいでしょうか?

  • A. MySQL クラスタにノードを追加してOLAP キューブを構築します。
  • B. ETL ツールを使用してMySQL から Google BigQuery にデータを読み込みします。
  • C. オンプレミスの Apache Hadoop クラスタを MySQL に接続してETL を実行します。
  • D. バックアップを Google Cloud SQL にマウントして Google Cloud Dataproc を使用してデータを処理します。

Correct Answer: B


Question 30

会社のオンプレミスのApache Hadoop サーバーはサポート終了に近づいており、IT 部門はクラスタを Google Cloud Dataproc に移行することにしました。
クラスタを同等に移行するにはノードごとに 50 TB の Persistent Disk が必要です。CIOはそれだけのブロック ストレージを使用した場合のコストを懸念しており、移行にかかるストレージ費用を最小限に抑えたいと考えています。
どうすればよいでしょうか?

  • A. Google Cloud Storage にデータを入れます。
  • B. Google Cloud Dataproc クラスタにプリエンプティブル VM を使用します。
  • C. Google Cloud Dataproc クラスタをチューニングしてすべてのデータにちょうど十分なディスクがあるようにします。
  • D. コールドデータの一部を Google Cloud Storage に移行してホットデータだけを Persistent Disk に保存します。

Correct Answer: A


Question 31

金融サービス会社はクラウド テクノロジーに移行して 50 TBの金融時系列データをクラウドに保存したいと考えています。
このデータは頻繁に更新され、新しいデータがストリーミングされています。また、会社は既存のApache Hadoop ジョブをクラウドに移行してこのデータの洞察を得たいと考えています。
どの製品を使ってデータを保存するべきでしょうか?

  • A. Google Cloud Bigtable
  • B. Google BigQuery
  • C. Google Cloud Storage
  • D. Google Cloud Datastore

Correct Answer: A

Reference contents:
Schema design for time series data | Cloud Bigtable ドキュメント


Question 32

グローバルに配布されているオークション アプリケーションではユーザーがアイテムに入札することができます。
時々、ユーザーがほぼ同じ時間に同じ入札を行い、異なるアプリケーション サーバーがそれらの入札を処理します。各入札イベントにはアイテム、金額、ユーザー、タイムスタンプが含まれています。どのユーザーが最初に入札したかを判断するためにこれらの入札イベントをリアルタイムで 1つの場所に集約させる必要があります。
どうすればよいでしょうか?

  • A. 共有ファイルにファイルを作成してアプリケーション サーバーにすべての入札イベントをそのファイルに書き込ませます。 Apache Hadoop でファイルを処理して最初に入札したユーザーを特定します。
  • B. 各アプリケーションサーバーに発生時に入札イベントを Google Cloud Pub/Sub に書き込ませます。 Google Cloud Pub/Sub から入札イベント情報を Google Cloud SQL に書き込むカスタム エンドポイントにイベントをプッシュします。
  • C. 入札イベントを書き込むためのMySQL データベースを各アプリケーション サーバーに設定します。これらの分散したMySQL データベースのそれぞれに定期的にクエリを実行し、入札イベント情報をマスター MySQL データベースに更新します。
  • D. 各アプリケーション サーバーは発生時に入札イベントを Google Cloud Pub/Sub に書き込むようにします。プルサブ スクリプションを使用して Google Cloud Dataflow を使用して入札イベントをプルします。最初に処理された入札イベントで各項目の入札をユーザーに渡します。

Correct Answer: B


Question 33

顧客のインフラストラクチャには YouTube チャンネルが含まれています。
分析のために YouTube チャンネルのデータを Google Cloud に送信するプロセスを作成する必要があります。 世界中のマーケティングチームが最新の YouTube チャンネルのログデータに対してANSI SQL やその他の種類の分析を実行できるようにするソリューションを設計したいと考えています。
ログデータの Google Cloud への転送をどのように設定するべきでしょうか?

  • A. Google Cloud Storage Transfer Service を使用してオフサイトのバックアップ ファイルを最終的な宛先として Google Cloud Multi-Regional Storage バケットに転送します。
  • B. Google Cloud Storage Transfer Service を使用してオフサイトのバックアップ ファイルを最終的な宛先として Google Cloud Regional Storage バケットに転送します。
  • C. Google BigQuery Data Transfer を使用してオフサイトのバックアップ ファイルを最終的な宛先として Google Cloud Multi-Regional Storage バケットに転送します。
  • D. Google BigQuery Data Transfer を使用してオフサイトのバックアップ ファイルを最終的な宛先として Google Cloud Regional Storage バケットに転送します。

Correct Answer: C

Reference contents:
YouTube チャンネル転送 | BigQuery Data Transfer Service


Question 34

ニューラル ネットワーク モデルのトレーニングに何日もかかっています。
トレーニングの速度を上げたいと思っています。
どうすればいいでしょうか?

  • A. テストデータ セットをサブサンプリングします。
  • B. トレーニング データセットをサブサンプリングします。
  • C. モデルへの入力特徴量の数を増やします。
  • D. ニューラル ネットワークのレイヤー数を増やします。

Correct Answer: B

Reference contents:
Speeding Up Neural Network Training with Data Echoing


Question 35

組織では 6ヶ月間、Google BigQuery でデータを収集・分析しています。
分析されたデータの大部分は「events_partitioned」という名前の間で分割されたテーブルに配置されています。クエリのコストを削減するために組織は「イベント」という名前のビューを作成しました。このビューは標準 SQL で記述されています。来月、既存のアプリケーションが Google BigQuery に接続してODBC 接続を介してイベント データを読み取る予定です。アプリケーションが接続できるようにする必要があります。
どのようなアクションを行うべきでしょうか?(回答を 2つ選択してください)

  • A. 標準 SQL を使用してイベントに対する新しいビューを作成します。
  • B. 標準 SQL クエリを使用して新しいパーティション分割テーブルを作成します。
  • C. 標準 SQL を使用して events_partitioned の新しいビューを作成します。
  • D. 認証に使用するODBC 接続のサービス アカウントを作成します。
  • E. ODBC 接続と共有された「イベント」のために、IAM の役割を作成します。

Correct Answer: C、D


Question 36

ソフトウェアはすべてのメッセージにシンプルなJSON 形式を使用しています。
これらのメッセージは Google Cloud Pub/Sub に公開され、Google Cloud Dataflow で処理されてCFOのリアルタイム ダッシュボードが作成されます。テスト中にダッシュボードに一部のメッセージが表示されていないことに気が付きました。ログを確認しましたがすべてのメッセージが Google Cloud Pub/Sub に正常に公開されています。
何をすればいいのでしょうか?

  • A. ダッシュボード アプリが正しく表示されていないか確認します。
  • B. 固定データセットを Google Cloud Dataflow パイプラインで実行して出力を分析します。
  • C. Google Cloud Pub/Sub の Stackdriver Monitoring を使用して表示されていないメッセージを見つけます。
  • D. Google Cloud Pub/Sub が Google Cloud Dataflow にメッセージをPush するのではなく、Google Cloud Dataflow を切り替えて Google Cloud Pub/Sub からメッセージをPull します。

Correct Answer: B


Question 37

スタートアップ企業では正式なセキュリティ ポリシーを実装したことがありません。
現在、社内の全員が Google BigQuery に保存されたデータセットにアクセスできるようになっています。チームはサービスを自由に使用することができ、ユースケースを文書化していません。データ ウェアハウスのセキュリティを確保するように依頼されています。誰もが何をしているのかを発見する必要があります。
何をすべきでしょうか?

  • A. Google Stackdriver の監査ログを使用してデータアクセスを確認します。
  • B. 各テーブルのID とアクセス管理(Cloud IAM)ポリシーを取得します。
  • C. Stackdriver モニタリングを使用して Google BigQuery クエリスロットの使用状況を確認します。
  • D. Google Cloud Billing API を使用してウェアハウスがどのアカウントに請求されているかを確認します。

Correct Answer: A


Question 38

チームは社内のETL の開発と保守を担当しています。
入力データのエラーが原因で Google Cloud Dataflow ジョブの 1つに障害が発生しており、パイプラインの信頼性を向上させる必要があります。(障害が発生したデータをすべて再処理できるようにするなど)
どうすればよいでしょうか?

  • A. 将来的にこれらのタイプのエラーをスキップするためのフィルタリングステップを追加し、ログから誤った行を抽出します。
  • B. データを変換するtry/catch ブロックを追加してログから誤った行を抽出します。
  • C. データを変換するtry/catch ブロックを追加して DoFnから直接 Google Cloud Pub/Sub に誤った行を書き込みます。
  • D. データを変換するtry/catch ブロックを追加して sideOutput を使用し、後で Google Cloud Pub/Sub に保存できる PCollection を作成します。

Correct Answer: D

Reference contents:
トラブルシューティングとデバッグ | Cloud Dataflow
よくある質問 #Java の例外は Cloud Dataflow でどのように処理されますか? | Cloud Dataflow


Question 39

チームは 2値分類の問題に取り組んでいます。
デフォルトのパラメータでサポートベクターマシン(SVM)分類器をトレーニングし、検証セットで曲線下面積(AUC)が0.87になりました。モデルのAUCを増やしたいとします。
何をすべきでしょうか?

  • A. ハイパーパラメータ調整を実行します。
  • B. ニューラル ネットワークは常にSVM を凌駕するため、ディープニューラル ネットワークを使用して分類器をトレーニングします。
  • C. モデルを展開して実際のAUCを測定します。 一般化のため、常に高くなります。
  • D. 最高のAUC を取得するためにモデルから取得するスケール予測(ハイパーパラメーターとしてスケーリング係数を調整)します。

Correct Answer: D


Question 40

米国を拠点とする会社がユーザーのアクションを評価して対応するためのアプリケーションを作成しました。
プライマリ テーブルのデータ量は毎秒 250,000 レコード増加します。多くのサードパーティはアプリケーション API を使用して独自のフロントエンド アプリケーションに機能を構築しています。
アプリケーション API は次の要件を満たす必要があります。
– 単一のグローバルエンドポイント
– ANSI SQL のサポート
– 最新のデータへの一貫したアクセス
何をすべきでしょうか?

  • A. ストレージや処理にリージョンを選択しない Google BigQuery を実装します。
  • B. Google Cloud Spanner を北米ではリーダー、アジアとヨーロッパでは読み取り専用のレプリカで実装します。
  • C. Google Cloud SQL for PostgreSQL を北米にマスターで実装してアジアとヨーロッパに読み取り専用のレプリカを実装します。
  • D. Google Cloud Bigtable を北米のプライマリ クラスタとアジアとヨーロッパのセカンダリ クラスタで実装します。

Correct Answer: B


Question 41

天気アプリは現在の気温を取得するために 15分ごとにデータベースにクエリを実行します。
このフロントエンドは Google App Engine を搭載しており、何百万人ものユーザーにサービスを提供しています。
データベースの障害に対応するためにどのようにフロントエンドを設計すべきでしょうか?

  • A. コマンドを発行してデータベース サーバーを再起動します。
  • B. 指数バックオフを使用して 15分を上限にクエリを再試行します。
  • C. データの古さを最小限に抑えるためにオンラインに戻るまで 1秒ごとにクエリを再試行します。
  • D. データベースがオンラインに戻るまでクエリの頻度を 1時間に 1回に減らします。

Correct Answer: B

Reference contents:
データベース接続の管理 #指数バックオフ | Cloud SQL for MySQL


関連する Professional Data Engineer 模擬問題集

Comments are closed