arrow_back

強化学習: Qwik Start

ログイン 参加
700 以上のラボとコースにアクセス

強化学習: Qwik Start

ラボ 1時間 universal_currency_alt クレジット: 1 show_chart 入門
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
700 以上のラボとコースにアクセス

GSP691

Google Cloud セルフペース ラボのロゴ

概要

機械学習に関する研究の多くの分野と同様に、強化学習(RL: Reinforcement Learning)は、猛烈なスピードで進歩しています。他の研究分野もそうですが、研究者たちはディープ ラーニングを活用して最先端の成果を生み出しています。

このラボでは、簡単なゲームの作成を通じて強化学習の基礎を学びます。

学習内容

このラボでは、次の方法について学びます。

  • 強化学習の基本的なコンセプトについて学習する。
  • Vertex AI Workbench インスタンスを作成する。
  • Vertex AI Workbench インスタンスにラボのノートブックのクローンを作成する。
  • ノートブックの手順を読み、理解し、実行する。

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モード(推奨)またはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。
  • ラボを完了するための時間(開始後は一時停止できません)
注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

  1. [ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。

    • [Google Cloud コンソールを開く] ボタン
    • 残り時間
    • このラボで使用する必要がある一時的な認証情報
    • このラボを行うために必要なその他の情報(ある場合)
  2. [Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。

    ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

    ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。

    注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
  3. 必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。

    {{{user_0.username | "Username"}}}

    [ラボの詳細] ペインでもユーザー名を確認できます。

  4. [次へ] をクリックします。

  5. 以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。

    {{{user_0.password | "Password"}}}

    [ラボの詳細] ペインでもパスワードを確認できます。

  6. [次へ] をクリックします。

    重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。 注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
  7. その後次のように進みます。

    • 利用規約に同意してください。
    • 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
    • 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーション メニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。 ナビゲーション メニュー アイコンと検索フィールド

タスク 1. 強化学習の基礎

強化学習は機械学習の形態の 1 つであり、エージェントが環境に対する行動を選択しながら、その一連の選択を通じて得られる目標(報酬)を最大化する方法を学習していくというものです。従来の教師あり学習のテクニックとは異なり、データポイントはすべてがラベル付けされるというわけではなく、エージェントは「スパース」な報酬にアクセスできるだけです。

強化学習の歴史は 1950 年代にまでさかのぼることができます。そのアルゴリズムは数多く存在しますが、最近では、簡単に実装できる強力な深層強化学習アルゴリズム、DQN(ディープ Q ネットワーク)と DDPG(Deep Deterministic Policy Gradient)の 2 つが注目されています。このセクションでは、これらのアルゴリズムと変種について簡単に紹介します。

プロセス概念図

強化学習のプロセス概念図

DQN は、Google DeepMind グループが 2015 年に Nature の論文で発表したアルゴリズムです。論文の著者らは、画像認識分野でのディープ ラーニングの成功を励みに、ディープ ニューラル ネットワークを Q 学習に組み込み、観測空間が非常に高次元な Atari Game Engine Simulator でアルゴリズムをテストしました。

ディープ ニューラル ネットワークは、特定の入力状態に基づいて、出力 Q 値、すなわちある行動を取ることがどの程度望ましいかを予測する関数近似器として機能します。つまり、DQN は価値ベースのアルゴリズムです。DQN はトレーニング アルゴリズムの中でベルマン方程式に従い Q 値を更新していきますが、動くターゲットに合わせる難しさを避けるために、ターゲットの値を予測する、第 2 のディープ ニューラル ネットワークを使います。

より実用的なレベルとして、次のモデルでは、Google Cloud で実行されている強化学習ジョブを取得するために、ソースファイル、シェルコマンド、エンドポイントをハイライト表示しています。

モデル図

タスク 2. Vertex AI Workbench インスタンスを作成する

  1. Google Cloud コンソールのナビゲーション メニューナビゲーション メニュー)で [Vertex AI] を選択します。

  2. [すべての推奨 API を有効化] をクリックします。

  3. 左側の [ワークベンチ] をクリックします。

  4. [ワークベンチ] ページの上部で、[インスタンス] ビューになっていることを確認します。

  5. [ボックスを追加する新規作成] をクリックします。

  6. インスタンスの構成:

    • 名前: lab-workbench
    • リージョン: リージョンを に設定します
    • [ゾーン]: ゾーンを に設定します
    • [詳細オプション](任意): 必要に応じて [詳細オプション] をクリックして、さらにカスタマイズします(マシンタイプ、ディスクサイズなど)。

Vertex AI Workbench インスタンスを作成する

  1. [作成] をクリックします。
注: インスタンスの作成には数分かかります。作成が完了すると、インスタンス名の横に緑色のチェックマークが表示されます。
  1. インスタンス名の横に表示されている [JupyterLab を開く] をクリックして、JupyterLab インターフェースを起動します。ブラウザで新しいタブが開きます。

デプロイされたワークベンチ インスタンス

  1. [Terminal] アイコンをクリックしてターミナル ウィンドウを開きます。

Jupyter ノートブックを開く

ターミナル ウィンドウが新しいタブで開きます。これで、ターミナルでコマンドを実行して Workbench インスタンスを操作できるようになりました。

開いているターミナル ウィンドウ

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 Vertex AI Workbench インスタンスを作成する

タスク 3. サンプルコードをコピーする

  1. 次のコードをコピーしてターミナルで実行し、ノートブック ファイル をコピーします。
gcloud storage cp -r gs://{{{project_0.project_id|project_id}}}-labconfig-bucket/* .
  1. 左側のメニューで [early_rl] > [] を選択します。新しいタブが開きます。
early_rl フォルダを一覧表示する

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 サンプルコードをコピーする

タスク 4. ノートブックを実行する

注: ノートブックで Python 3 カーネルを選択してください。

新しいタブは次のようになります。

Early Reinforcement Learning ウェブページ

  1. 次のノートブックを読み、Shift+Enter キーを押して、すべてのコードブロックを実行します。

  2. ノートブックの手順を完了したら、このページに戻ります。

お疲れさまでした

このラボでは、強化学習の基本的な考え方について学習しました。JupyterLab インスタンスを作成した後、サンプル リポジトリのクローンを作成してノートブックを実行し、強化学習の基礎に関する実践演習を行いました。これで、このシリーズのラボをさらに受講する準備が整いました。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 7 月 11 日

ラボの最終テスト日: 2025 年 7 月 11 日

Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

シークレット ブラウジングを使用する

  1. ラボで使用するユーザー名パスワードをコピーします
  2. プライベート モードで [コンソールを開く] をクリックします

コンソールにログインする

    ラボの認証情報を使用して
  1. ログインします。他の認証情報を使用すると、エラーが発生したり、料金が発生したりする可能性があります。
  2. 利用規約に同意し、再設定用のリソースページをスキップします
  3. ラボを終了する場合や最初からやり直す場合を除き、[ラボを終了] はクリックしないでください。クリックすると、作業内容がクリアされ、プロジェクトが削除されます

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。