arrow_back

データ品質の改善

ログイン 参加
700 以上のラボとコースにアクセス

データ品質の改善

ラボ 45分 universal_currency_alt クレジット: 5 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
700 以上のラボとコースにアクセス

概要

機械学習モデルが扱えるデータは数値のみで、数値データは 1 または 0 でなければなりません。データが雑然としている、または整然としていないと言われるのは、属性値が欠けている、ノイズや外れ値が含まれている、重複している、間違っている、大文字と小文字の列名がある、ML アルゴリズムによる取り込みの準備が本質的にできていないといった場合です。

このラボでは、雑然としたデータに関するよくある問題をいくつか提示して解決します。なお、その他の問題には異なる解決方法が必要になります。このノートブックでは、それらの問題は扱いません。

目標

このラボでは、次の方法について学びます。

  • 欠損値を解決する。
  • 日付の特徴量列を日時形式に変換する。
  • 特徴量列の名前を変更し、特徴量列から値を削除する。
  • ワンホット エンコーディングの特徴量列を作成する。
  • 時間に関する特徴量の変換を理解する。

設定と要件

各ラボでは、新しい Google Cloud プロジェクトとリソースセットを一定時間無料で利用できます。

  1. Qwiklabs にシークレット ウィンドウでログインします。

  2. ラボのアクセス時間(例: 1:15:00)に注意し、時間内に完了できるようにしてください。
    一時停止機能はありません。必要な場合はやり直せますが、最初からになります。

  3. 準備ができたら、[ラボを開始] をクリックします。

  4. ラボの認証情報(ユーザー名パスワード)をメモしておきます。この情報は、Google Cloud Console にログインする際に使用します。

  5. [Google Console を開く] をクリックします。

  6. [別のアカウントを使用] をクリックし、このラボの認証情報をコピーしてプロンプトに貼り付けます。
    他の認証情報を使用すると、エラーが発生したり、料金の請求が発生したりします。

  7. 利用規約に同意し、再設定用のリソースページをスキップします。

タスク 1. 環境の設定

Vertex AI API を有効にする

  1. Google Cloud コンソールのナビゲーション メニューで、[Vertex AI] > [ダッシュボード] をクリックします。
  2. [すべての推奨 API を有効化] をクリックします。

タスク 2. Vertex AI Notebooks インスタンスを起動する

  1. Google Cloud コンソール のナビゲーション メニューで、[Vertex AI] > [ワークベンチ] をクリックします。[ユーザー管理のノートブック] を選択します。

  2. ノートブック インスタンスのページで、[新しいノートブック] > [TensorFlow Enterprise] > [TensorFlow Enterprise 2.11 (with LTS)] > [Without GPUs] の順にクリックします。

  3. [新しいノートブック] インスタンス ダイアログで、Deep Learning VM の名前を確認します。リージョンとゾーンを変更しない場合は、設定をすべてそのままにして [作成] をクリックします。新しい VM が起動するまでに 2~3 分かかります。

  4. [JUPYTERLAB を開く] をクリックします。
    JupyterLab ウィンドウが新しいタブで開きます。

  5. 「Build Recommended」というポップアップが表示されたら、[Build] をクリックします。ビルドがエラーになった場合は無視してかまいません。

タスク 3. Vertex AI Notebooks インスタンス内でコース リポジトリのクローンを作成する

GitHub リポジトリには、コースのラボファイルとソリューション ファイルの両方が含まれています。

  1. ノートブックの最初のセルに次のコードをコピーして実行し、training-data-analyst リポジトリのクローンを作成します。
!git clone https://github.com/GoogleCloudPlatform/training-data-analyst

raining-data-analyst リポジトリのクローンを作成する

  1. リポジトリのクローンが作成されたことを確認します。training-data-analyst ディレクトリをダブルクリックし、リポジトリのコンテンツが表示されることを確認します。

training-data-analyst リポジトリを確認する

タスク 4. データ品質の改善

  1. ノートブック インターフェースで、[training-data-analyst] > [courses] > [machine_learning] > [deepdive2] > [launching_into_ml] > [labs] に移動して [improve_data_quality.ipynb] を開きます。

  2. ノートブック インターフェースで、[編集] > [出力をすべて消去] をクリックします。

  3. ノートブックに記載された手順をよく読み、#TODO のマークが付いた行に必要な内容を入力してコードを完成させます。

注: 以下のヒントを参考にしてください。

  • 現在のセルを実行するには、そのセルをクリックして、Shift+Enter キーを押します。その他のセルコマンドはノートブック UI 内の [Run] の下にあります。
  • タスクのヒントが提供されている場合もあります。テキストを選択すると、関連するヒントが白いテキストで表示されます。
  • さらに情報が必要な場合は、[training-data-analyst] > [courses] > [machine_learning] > [deepdive2] > [launching_into_ml] > [solutions] に移動して [improve_data_quality.ipynb] を開き、ソリューションの全体を見ることもできます。

ラボを終了する

ラボでの学習が完了したら、[ラボを終了] をクリックします。ラボで使用したリソースが Qwiklabs から削除され、アカウントの情報も消去されます。

ラボの評価を求めるダイアログが表示されたら、星の数を選択してコメントを入力し、[送信] をクリックします。

星の数は、それぞれ次の評価を表します。

  • 星 1 つ = 非常に不満
  • 星 2 つ = 不満
  • 星 3 つ = どちらともいえない
  • 星 4 つ = 満足
  • 星 5 つ = 非常に満足

フィードバックを送信しない場合は、ダイアログ ボックスを閉じてください。

フィードバック、ご提案、修正が必要な箇所については、[サポート] タブからお知らせください。

Copyright 2020 Google LLC All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。