arrow_back

BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング: チャレンジラボ

ログイン 参加
700 以上のラボとコースにアクセス

BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング: チャレンジラボ

ラボ 1時間 universal_currency_alt クレジット: 5 show_chart 中級
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
700 以上のラボとコースにアクセス

GSP327

Google Cloud セルフペース ラボのロゴ

概要

チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。

チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。

100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。

このラボは、「BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング」スキルバッジ コースに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。

設定

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モード(推奨)またはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。
  • ラボを完了するための時間(開始後は一時停止できません)
注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

チャレンジ シナリオ

あなたは、TaxiCab Inc. で新たにデータ エンジニアの任務に就くことになりました。過去のデータを BigQuery の作業用データセットにインポートして、入手可能な情報に基づいて乗車時に運賃を予測する基本モデルを構築することを求められています。経営陣は、乗客向けに運賃を予測するアプリの構築に関心を持っています。プロジェクトにはソースデータが用意されます。

これらのタスクのスキルや知識があるという前提のため、手順ガイドは提供されません。

チャレンジ

席に着いてノートパソコンを開くと、経営陣のために BigQuery ML(BQML)の基本的な運賃予測モデルを構築するという初仕事の依頼が届いていました。次のタスクを実行して、データをインポート、クリーニングしてからモデルを構築し、新しいデータでバッチ予測を実行してください。これをもとに、経営陣はモデルのパフォーマンスを確認し、アプリ機能のデプロイを許可できるかどうかを判断します。

タスク 1. トレーニング データをクリーニングする

最初のステップはすでに完了しています。データセット taxirides を作成して、過去のデータをテーブル historical_taxi_rides_raw にインポートしました。これは 2015 年より前の乗車データです。

注: プロジェクトにすべてのデータが入力されるまでに 1~3 分かかることがあります。

このタスクでは、次の作業が必要です。

  • historical_taxi_rides_raw のデータをクリーニングして、同じデータセット内の にコピーします。このテーブルの作成とデータのクリーニングには、BigQuery、DataPrep、DataFlow などを使用できます。ターゲット列の名前は必ず にしてください。

役に立つヒント:

  • BQ UI でソース データセットを確認できます。最初にソースのスキーマを理解しておきましょう。
  • 予測時に使用可能なデータに関するヒントとして、テーブル taxirides.report_prediction_data をよく確認しておいてください。予測時にどのような形式のデータが得られるかがわかります。

データ クリーニングのタスク:

  • trip_distance より大きいことを確認します。
  • fare_amount が非常に小さい行(たとえば、$ 未満)を削除します。
  • このユースケースで妥当な緯度と経度であるかどうかを確認します。
  • passenger_count より大きいことを確認します。
  • tolls_amountfare_amount をターゲット変数として に追加してください。total_amount にはチップが含まれるからです。
  • ソース データセットが大きい(10 億行を超える)場合は、サンプリングして 100 万行未満のデータセットにしてください。
  • モデルで使用されるフィールドのみをコピーします(report_prediction_data を参考にしてください)。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。データをクリーニングして にコピーを作成する

タスク 2. BigQuery ML モデルを作成する

  1. のデータに基づいて を予測する BigQuery ML モデルを構築します。

  2. モデルの名前を にします。

注: このタスクでは、モデルの RMSE が 10 以下である必要があります。

役に立つヒント:

  • 追加のデータ変換は TRANSFORM() 句にカプセル化することができます。
  • TRANSFORM() 句に含まれる特徴量のみがモデルに渡されることに注意してください。* EXCEPT(feature_to_leave_out) を使用して、明示的に呼び出すことなくすべての特徴量またはその一部を渡すことができます。
  • BigQuery の GIS 関数 ST_distance()ST_GeogPoint() を使用して、ユークリッド距離を簡単に計算できます(乗車から降車までのタクシーの走行距離など)。
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。RMSE が 10 未満の BigQuery ML モデル を作成する

タスク 3. 新しいデータに対してバッチ予測を実行する

経営陣は、作成されたモデルが新しいデータ(この場合は、2015 年に収集されたすべてのデータ)に対してうまく機能するかどうか確認することを希望しています。このデータは taxirides.report_prediction_data に含まれます。予測時に既知の値のみがテーブルに含まれます。

  • ML.PREDICT と作成したモデルを使用して、 を予測し、結果を 2015_fare_amount_predictions というテーブルに格納します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 バッチ予測を実行して新しいテーブル 2015_fare_amount_predictions に格納する

お疲れさまでした

「BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング」バッジ

次のスキルバッジを獲得する

このセルフペース ラボは、「BigQuery ML を使用した予測モデリング向けのデータ エンジニアリング」スキルバッジ コースの一部です。このスキルバッジ コースを完了すると成果が認められて、上のようなバッジが贈られます。獲得したバッジを履歴書やソーシャル プラットフォームで共有し、#GoogleCloudBadge を使用して成果を公表しましょう。

このスキルバッジ コースは、Google Cloud のデータ エンジニア向け学習プログラムの一部です。この学習プログラムの他のスキルバッジを獲得済みの場合は、他の登録可能なスキルバッジ コースをカタログで検索してみてください。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2024 年 3 月 25 日

ラボの最終テスト日: 2023 年 9 月 11 日

Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。