Google Cloud Big Data and Machine Learning Fundamentals - 日本語版

コース · 5時間

< 1%

完了

700 以上のラボとコースにアクセス

Dataflow を使用してリアルタイムダッシュボード用のストリーミングデータパイプラインを作成する

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 入門

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

概要
目標
設定と要件
タスク 1. BigQuery データセットを作成する
タスク 2. ラボに必要なアーティファクトをコピーする
タスク 3. Dataflow パイプラインを設定する
タスク 4. BigQuery を使用してタクシーデータを分析する
タスク 5. レポート用にストリームの集計を実行する
タスク 6. Dataflow ジョブを停止する
タスク 7. リアルタイムダッシュボードを作成する
タスク 8. 時系列ダッシュボードを作成する
お疲れさまでした
ラボを終了する

700 以上のラボとコースにアクセス

概要

このラボでは、ニューヨーク市のタクシー車両を多数所有しているものと仮定して、リアルタイムでビジネスの状況をモニタリングします。タクシーの収益、乗客数、乗車状況などを把握し、その結果を管理ダッシュボードで視覚化するためのストリーミングデータパイプラインを構築します。

目標

このラボでは、次の方法について学びます。

テンプレートからの Dataflow ジョブの作成
BigQuery への Dataflow パイプラインのストリーミング
BigQuery での Dataflow パイプラインのモニタリング
SQL を使用した結果の分析
Looker Studio での主要指標の可視化

設定と要件

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるポップアップでお支払い方法を選択してください。左側の [ラボの詳細] パネルには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースが起動し、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] パネルでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] パネルでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスのリストを含むメニューを表示するには、左上のナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。ナビゲーションメニューアイコン

Google Cloud Shell の有効化

Google Cloud Shell は、開発ツールと一緒に読み込まれる仮想マシンです。5 GB の永続ホームディレクトリが用意されており、Google Cloud で稼働します。

Google Cloud Shell を使用すると、コマンドラインで Google Cloud リソースにアクセスできます。

Google Cloud コンソールで、右上のツールバーにある [Cloud Shell をアクティブにする] ボタンをクリックします。
[続行] をクリックします。

環境がプロビジョニングされ、接続されるまでしばらく待ちます。接続した時点で認証が完了しており、プロジェクトに各自のプロジェクト ID が設定されます。次に例を示します。

Cloud Shell ターミナルでハイライト表示されたプロジェクト ID

gcloud は Google Cloud のコマンドラインツールです。このツールは、Cloud Shell にプリインストールされており、タブ補完がサポートされています。

次のコマンドを使用すると、有効なアカウント名を一覧表示できます。

gcloud auth list

出力:

Credentialed accounts: - @.com (active)

出力例:

Credentialed accounts: - google1623327_student@qwiklabs.net

次のコマンドを使用すると、プロジェクト ID を一覧表示できます。

gcloud config list project

出力:

[core] project =

出力例:

[core] project = qwiklabs-gcp-44776a13dea667a6

注: gcloud ドキュメントの全文については、 gcloud CLI の概要ガイドをご覧ください。

タスク 1. BigQuery データセットを作成する

このタスクでは、taxirides データセットを作成します。Google Cloud Shell か Google Cloud コンソールを使用してこのデータセットを作成できます。

このラボでは、NYC Taxi & Limousine Commission の公開データセットの抜粋を使用します。小さなカンマ区切りのデータファイルは、タクシーに関するデータの定期的な更新をシミュレートするために使用されます。

BigQuery はサーバーレスデータウェアハウスです。BigQuery 内のテーブルは、データセットに編成されます。このラボでは、タクシーに関するデータがスタンドアロンファイルから Dataflow 経由で流れ、BigQuery に保存されます。この設定では、ソースの Cloud Storage バケットに付与された新しいデータファイルはすべて、読み込み用に自動処理されます。

次のいずれかの方法で新しい BigQuery データセットを作成します。

方法 1: コマンドラインツール

Cloud Shell（）で、次のコマンドを実行して taxirides データセットを作成します。

bq --location={{{project_0.default_region|Region}}} mk taxirides

以下のコマンドを実行して taxirides.realtime テーブルを作成します（この空のスキーマに後でデータをストリーミングします）。

bq --location={{{project_0.default_region|Region}}} mk \ --time_partitioning_field timestamp \ --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\ timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\ passenger_count:integer -t taxirides.realtime

方法 2: BigQuery コンソール UI

注: コマンドラインを使用してテーブルを作成した場合、この手順はスキップしてください。

Google Cloud コンソールのナビゲーションメニュー（）で、[BigQuery] をクリックします。
ようこそのダイアログが表示されたら、[完了] をクリックします。
プロジェクト ID の横に表示される [アクションを表示] （）をクリックし、[データセットを作成] をクリックします。
[データセット ID] に「taxirides」と入力します。
データのロケーションで以下を選択します。

{{{project_0.default_region|Region}}}

次に、[データセットを作成] をクリックします。

[エクスプローラ] ペインで [ノードを展開します]（）をクリックして新しい taxirides データセットを表示します。
taxirides データセットの横の アクションを表示（）をクリックして、次に [開く] をクリックします。
[テーブルを作成] をクリックします。
[テーブル] に「realtime」と入力します。
[スキーマ] で [テキストとして編集] をクリックし、以下のスキーマを貼り付けます。

ride_id:string, point_idx:integer, latitude:float, longitude:float, timestamp:timestamp, meter_reading:float, meter_increment:float, ride_status:string, passenger_count:integer

[パーティションとクラスタの設定] で [タイムスタンプ] を選択します。
[テーブルを作成] をクリックします。

タスク 2. ラボに必要なアーティファクトをコピーする

このタスクでは、必要なファイルをプロジェクトに移動します。

Cloud Storage では、世界中のどこからでも、いつでもデータを保存、取得できます。データの量に制限はありません。ウェブサイトコンテンツの提供、アーカイブと障害復旧のためのデータの保存、直接ダウンロードによるユーザーへの大きなデータオブジェクトの配布など、さまざまなシナリオで Cloud Storage を使用できます。

Cloud Storage バケットは、ラボの開始時に作成されています。

Cloud Shell（）で、次のコマンドを実行して Dataflow ジョブに必要なファイルを移動します。

gcloud storage cp gs://cloud-training/bdml/taxisrcdata/schema.json gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/schema.json gcloud storage cp gs://cloud-training/bdml/taxisrcdata/transform.js gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/transform.js gcloud storage cp gs://cloud-training/bdml/taxisrcdata/rt_taxidata.csv gs://{{{project_0.project_id|Project_ID}}}-bucket/tmp/rt_taxidata.csv

タスク 3. Dataflow パイプラインを設定する

このタスクでは、Cloud Storage バケットからファイルを読み取り、BigQuery にデータを書き込むストリーミングデータパイプラインを設定します。

Dataflow では、サーバーレスでデータ分析を行うことができます。

Dataflow API への接続を再起動する

Cloud Shell で次のコマンドを実行して、Dataflow API がプロジェクト内でスムーズに有効化されるようにします。

gcloud services disable dataflow.googleapis.com gcloud services enable dataflow.googleapis.com

新しいストリーミングパイプラインを作成する

Cloud コンソールのナビゲーションメニュー（）で、[すべてのプロダクトを表示] > [アナリティクス] > [Dataflow] をクリックします。
上部のメニューバーの [テンプレートからジョブを作成] をクリックします。
Dataflow ジョブのジョブ名として「streaming-taxi-pipeline」と入力します。
[リージョンエンドポイント] で、以下を選択します。

{{{project_0.default_region|Region}}}

[Dataflow テンプレート] で、[Process Data Continuously (stream)] にある [Cloud Storage Text to BigQuery (Stream)] テンプレートを選択します。

注: 以下のパラメータと一致するテンプレートオプションを選択してください。

[Cloud Storage 入力ファイル] に、以下のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}-bucket/tmp/rt_taxidata.csv

[BigQuery スキーマファイルの Cloud Storage の場所。JSON 形式で記述します] に、以下のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}-bucket/tmp/schema.json

[BigQuery 出力テーブル] に、次のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}:taxirides.realtime

[BigQuery 読み込みプロセスで使用する一時ディレクトリ] に、以下のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}-bucket/tmp

[必須パラメータ] をクリックします。
一時ファイルの書き込みに使用する [一時的な場所] に、以下のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}-bucket/tmp

[Cloud Storage 内の JavaScript UDF パス] に、以下のコマンドを貼り付けるか入力します。

{{{project_0.project_id|Project_ID}}}-bucket/tmp/transform.js

[JavaScript UDF 名] に、以下を貼り付けるか入力します。

transform

[最大ワーカー数] に「2」と入力します。
[ワーカーの数] に「1」と入力します。
[デフォルトのマシンタイプを使用する] チェックボックスをオフにします。
[汎用] で次の設定を選択します。

シリーズ: E2
マシンタイプ: e2-medium（2 個の vCPU、4 GB メモリ）

[ジョブを実行] をクリックします。

Dataflow テンプレート

新しいストリーミングジョブが開始されます。これで、データパイプラインを視覚的に表示できるようになりました。BigQuery へのデータ移行が開始されるまで 3～5 分かかります。

注: Dataflow ジョブが初めて失敗した場合は、別のジョブ名で新しいジョブテンプレートを再作成し、ジョブを実行します。

タスク 4. BigQuery を使用してタクシーデータを分析する

このタスクでは、ストリーミング中のデータを分析します。

Google Cloud コンソールのナビゲーションメニュー（）で [BigQuery] をクリックします。
ようこそのダイアログが表示されたら、[完了] をクリックします。
クエリエディタに次のクエリを入力して、[実行] をクリックします。

SELECT * FROM taxirides.realtime LIMIT 10

注: レコードが返されない場合は、しばらく待ってから上記のクエリを再実行します（Dataflow によるストリームの設定には 3～5 分かかります）。

出力は次のようになります。クエリによる BigQuery の出力例

タスク 5. レポート用にストリームの集計を実行する

このタスクでは、レポート用にストリームの集計を行います。

クエリエディタで現在のクエリを削除します。
以下のクエリをコピーして貼り付け、[実行] をクリックします。

WITH streaming_data AS ( SELECT timestamp, TIMESTAMP_TRUNC(timestamp, HOUR, 'UTC') AS hour, TIMESTAMP_TRUNC(timestamp, MINUTE, 'UTC') AS minute, TIMESTAMP_TRUNC(timestamp, SECOND, 'UTC') AS second, ride_id, latitude, longitude, meter_reading, ride_status, passenger_count FROM taxirides.realtime ORDER BY timestamp DESC LIMIT 1000 ) # レポート用にストリームの集計を行います。 SELECT ROW_NUMBER() OVER() AS dashboard_sort, minute, COUNT(DISTINCT ride_id) AS total_rides, SUM(meter_reading) AS total_revenue, SUM(passenger_count) AS total_passengers FROM streaming_data GROUP BY minute, timestamp

注: 次のタスクに進む前に、Dataflow が BigQuery にデータを登録していることを確認してください。

結果には、タクシーの降車ごとの主な指標が分単位で表示されます。

[保存] > [クエリを保存] をクリックします。
[クエリを保存] ダイアログの [名前] フィールドに「My Saved Query」と入力します。
[リージョン] で、リージョンが Qwiklabs ラボのリージョンと一致していることを確認します。
[保存] をクリックします。

タスク 6. Dataflow ジョブを停止する

このタスクでは、Dataflow ジョブを停止して、プロジェクト用のリソースを開放します。

Cloud コンソールのナビゲーションメニュー（）で、[すべてのプロダクトを表示] > [アナリティクス] > [Dataflow] をクリックします。
[streaming-taxi-pipeline] または新しいジョブ名をクリックします。
[停止] をクリックし、[キャンセル] > [ジョブの停止] を選択します。

タスク 7. リアルタイムダッシュボードを作成する

このタスクでは、リアルタイムダッシュボードを作成して、データを可視化します。

Google Cloud コンソールのナビゲーションメニュー（）で [BigQuery] をクリックします。
[エクスプローラ] ペインでプロジェクト ID を展開します。
[クエリ] を展開し、[My Saved Query] をクリックします。

クエリがクエリエディタに読み込まれます。

[実行] をクリックします。
[クエリ結果] セクションで、[次で開く] > [Looker Studio] をクリックします。

Looker Studio が開きます。[Get started] をクリックします。
Looker Studio ウィンドウで棒グラフをクリックします。

( 棒グラフ

[グラフ] ペインが表示されます。

[グラフを追加] をクリックし、[複合グラフ] を選択します。
[設定] ペインの [期間のディメンション] で、[minute (Date)] にカーソルを合わせて [X] をクリックして削除します。
[データ] ペインで、[dashboard_sort] をクリックして、[設定] > [期間のディメンション] > [ディメンションを追加] にドラッグします。
[設定] > [ディメンション] で、[分] をクリックし、[dashboard_sort] を選択します。
[設定] > [指標] で、[dashboard_sort] をクリックし、[total_rides] を選択します。
[設定] > [指標] で、[Record Count] をクリックし、[total_passengers] を選択します。
[設定] > [指標] で、[指標を追加] をクリックし、[total_revenue] を選択します。
[設定] > [並べ替え] で、[total_rides] をクリックし、[dashboard_sort] を選択します。
[設定] > [並べ替え] で、[昇順] をクリックします。

グラフの表示は次のようになります。

グラフの例

注: Looker Studio では現在、タイムスタンプとしてデータを分単位で可視化することはできません。Google では対策として、独自の dashboard_sort ディメンションを作成しています。

ダッシュボードに問題がなければ、[保存して共有] をクリックしてこのデータソースを保存します。
アカウント設定を完了するダイアログが表示されたら、国と会社の詳細を入力し、利用規約に同意してから [続行] をクリックします。
どの更新情報を受け取るかを答えるように求められたら、すべて「いいえ」で回答して [続行] をクリックします。
[データアクセスを確認してから保存] ウィンドウが表示されたら、[同意して保存する] をクリックします。
アカウントを選択するよう求められたら、[Student Account] を選択します。
ダッシュボードにいつ誰がアクセスしても、最新のトランザクションが表示されます。その他のオプション（）の [データを更新] をクリックして試してみてください。

タスク 8. 時系列ダッシュボードを作成する

このタスクでは、期間グラフを作成します。

こちらの Looker Studio リンクをクリックして、新しいブラウザタブで Looker Studio を開きます。
[レポート] ページの [テンプレートを使って開始] で、[[+] 空のレポート] テンプレートをクリックします。
新しい空白のレポートと [データのレポートへの追加] ウィンドウが表示されます。
[Google Connectors] のリストから、[BigQuery] タイルを選択します。
[カスタムクエリ] をクリックして、プロジェクト ID を選択します。これは qwiklabs-gcp-xxxxxxx の形式で表示されます。
[カスタムクエリを入力] に以下のクエリを貼り付けます。

SELECT * FROM taxirides.realtime WHERE ride_status='enroute'

[追加] > [レポートに追加] をクリックします。

無題の新しいレポートが表示されます。画面の更新には最長で 1 分かかる場合があります。

期間グラフを作成する

[データ] ペインで、[フィールドを追加] > [計算フィールドを追加] をクリックします。
左隅で [すべてのフィールド] をクリックします。
[タイムスタンプ] フィールドのタイプを [日付と時刻] > [日付、時、分（YYYYMMDDhhmm）] に変更します。
タイムスタンプの変更ダイアログで、[続行] をクリックし、[完了] をクリックします。
トップメニューで [グラフを追加] をクリックします。
[期間グラフ] を選択します。
グラフをページ左下隅の何もない場所に配置します。
[設定] > [ディメンション] で、[timestamp (Date)] をクリックし、[timestamp] を選択します。
[設定] > [ディメンション] で、[timestamp] をクリックし、[calendar] を選択します。
[データタイプ] で、[日付と時刻] > [日付、時、分] を選択します。
ダイアログの外側をクリックして閉じます。名前を追加する必要はありません。
[設定] > [指標] で、[Record Count] をクリックし、[meter reading] を選択します。

お疲れさまでした

このラボでは、Dataflow を使用して、パイプライン経由で BigQuery にデータをストリーミングしました。

ラボを終了する

ラボが完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Google Cloud Skills Boost から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

星 1 つ = 非常に不満
星 2 つ = 不満
星 3 つ = どちらともいえない
星 4 つ = 満足
星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログボックスを閉じてください。

フィードバックやご提案の送信、修正が必要な箇所をご報告いただく際は、[サポート] タブをご利用ください。

Google Cloud Big Data and Machine Learning Fundamentals - 日本語版

Dataflow を使用してリアルタイム ダッシュボード用のストリーミング データ パイプラインを作成する

概要

目標

設定と要件

Google Cloud Shell の有効化

タスク 1. BigQuery データセットを作成する

方法 1: コマンドライン ツール

方法 2: BigQuery コンソール UI

タスク 2. ラボに必要なアーティファクトをコピーする

タスク 3. Dataflow パイプラインを設定する

Dataflow API への接続を再起動する

新しいストリーミング パイプラインを作成する

タスク 4. BigQuery を使用してタクシーデータを分析する

タスク 5. レポート用にストリームの集計を実行する

タスク 6. Dataflow ジョブを停止する

タスク 7. リアルタイム ダッシュボードを作成する

タスク 8. 時系列ダッシュボードを作成する

期間グラフを作成する

お疲れさまでした

ラボを終了する

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

Dataflow を使用してリアルタイムダッシュボード用のストリーミングデータパイプラインを作成する

方法 1: コマンドラインツール

新しいストリーミングパイプラインを作成する

タスク 7. リアルタイムダッシュボードを作成する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する