Google Cloud Next 2025 navigate_next Vertex AI を使用して DIY のマルチモーダル質問応答システムを構築する

700 以上のラボとコースにアクセス

Vertex AI を使用して DIY のマルチモーダル質問応答システムを構築する

ラボ 1時間 30分 universal_currency_alt クレジット: 5 show_chart 中級

info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。

GSP1279
概要
目標
設定と要件
タスク 1. Vertex AI Workbench でノートブックを開く
タスク 2. ノートブックを設定する
タスク 3. テキストと画像を含むドキュメントのメタデータを構築する
タスク 4. テキスト検索
タスク 5. 画像検索
タスク 6. 検索拡張生成（mRAG）を使用してマルチモーダル QA システムを構築する
お疲れさまでした

700 以上のラボとコースにアクセス

GSP1279

Google Cloud セルフペースラボのロゴ

概要

このラボでは、Google の Vertex AI と強力な Gemini モデルファミリーを使用して、マルチモーダル質問応答システムをゼロから構築する手順を解説します。事前構築されたツールやライブラリに頼らず、自分で構築することで、このようなシステムの仕組みを深く理解できます。このハンズオン体験を通じて、プロセスをわかりやすく学び、将来的に独自の質問応答システムをカスタマイズおよび最適化するための知識を身につけることができます。また、従来のテキストベースの検索拡張生成（RAG）と比較して、マルチモーダル RAG の利点を探り、視覚情報を組み込むことでナレッジへのアクセスや推論能力がどのように向上するかを学びます。

前提条件

このラボを開始する前に、以下について理解しておく必要があります。

基本的な Python プログラミング。
一般的な API のコンセプト。
Vertex AI Workbench の Jupyter ノートブックでの Python コードの実行。

目標

このラボでは、マルチモーダル検索拡張生成（RAG）を使用してドキュメント検索エンジンを構築する方法を学びます。

テキストと画像の両方を含むドキュメントのメタデータを抽出して保存し、ドキュメントのエンベディングを生成する
テキストクエリを使用してメタデータを検索し、類似したテキストまたは画像を見つける
画像クエリを使用してメタデータを検索し、類似した画像を見つける
テキストクエリを入力として使用し、テキストと画像の両方を使用してコンテキストに沿った回答を検索する

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

標準的なインターネットブラウザ（Chrome を推奨）

注: このラボの実行には、シークレットモード（推奨）またはシークレットブラウジングウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。

ラボを完了するための時間（開始後は一時停止できません）

注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

ラボを開始して Google Cloud コンソールにログインする方法

[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。左側の [ラボの詳細] ペインには、以下が表示されます。
- [Google Cloud コンソールを開く] ボタン
- 残り時間
- このラボで使用する必要がある一時的な認証情報
- このラボを行うために必要なその他の情報（ある場合）
[Google Cloud コンソールを開く] をクリックします（Chrome ブラウザを使用している場合は、右クリックして [シークレットウィンドウで開く] を選択します）。

ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。

ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
注: [アカウントの選択] ダイアログが表示されたら、[別のアカウントを使用] をクリックします。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
{{{user_0.username | "Username"}}}
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
{{{user_0.password | "Password"}}}
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
重要: ラボで提供された認証情報を使用する必要があります。Google Cloud アカウントの認証情報は使用しないでください。注: このラボでご自身の Google Cloud アカウントを使用すると、追加料金が発生する場合があります。
その後次のように進みます。
- 利用規約に同意してください。
- 一時的なアカウントなので、復元オプションや 2 要素認証プロセスは設定しないでください。
- 無料トライアルには登録しないでください。

その後、このタブで Google Cloud コンソールが開きます。

注: Google Cloud のプロダクトやサービスにアクセスするには、ナビゲーションメニューをクリックするか、[検索] フィールドにサービス名またはプロダクト名を入力します。ナビゲーションメニューアイコンと検索フィールド

タスク 1. Vertex AI Workbench でノートブックを開く

Google Cloud コンソールのナビゲーションメニュー（）で、[Vertex AI] > [ワークベンチ] の順にクリックします。
インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。

Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。

注: JupyterLab にノートブックが表示されない場合は、次の追加手順でインスタンスを再設定してください。

1. JupyterLab のブラウザタブを閉じて、Workbench のホームページに戻ります。

2. インスタンス名の横にあるチェックボックスをオンにして、[リセット] をクリックします。

3. [JupyterLab を開く] ボタンが再度有効になったら、1 分待ってから [JupyterLab を開く] をクリックします。

タスク 2. ノートブックを設定する

ファイルを開きます。
[Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
ノートブックの「Getting Started」（スタートガイド）セクションと「Import libraries」（ライブラリのインポート）セクションをすべて実行します。
- [Project ID] にを使用し、[Location] にを使用します。

注: 「Colab only」（Colab のみ）と記載されているノートブックセルの実行は省略できます。いずれかのノートブックセルの実行で 429 応答が返される場合は、1 分待ってから再度セルを実行し、次に進んでください。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。ライブラリをインポートしてノートブックを設定する

タスク 3. テキストと画像を含むドキュメントのメタデータを構築する

このセクションでは、メタデータを構築するためのヘルパー関数をインポートし、ソースドキュメントからテキストと画像の事前計算されたメタデータを読み込み、処理されたテキストと画像データを検査します。

ノートブックの [Building metadata of documents containing text and images]（テキストと画像を含むドキュメントのメタデータを構築する）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。メタデータを作成するためのヘルパー関数をインポートする

テキストと画像の事前計算されたメタデータを読み込む

処理されたテキストと画像データを調べる

タスク 4. テキスト検索

このセクションでは、Gemini モデルを使用して簡単な質問で検索し、テキストエンベディングを使用したシンプルなテキスト検索で、その質問に回答できるかどうかを確認します。また、Gemini モデルのマルチモーダル機能を使用して、テキストクエリに類似した画像を検索します。

ノートブックの「Text search」（テキスト検索）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。テキスト検索

タスク 5. 画像検索

画像を検索するにあたり、単語を入力する代わりに、実際の画像を手がかりとして使用します。住所を文字で入力する代わりに、ミニマップで検索するようなものです。これは「これに似たものをもっと見せて」と尋ねるための別の方法と言えます。「Gemini 2.0 の長いコンテキストのさまざまな例」と入力する代わりに、その画像を使って「これに似たものを探して」と指示します。

このセクションでは、1 つのドキュメント内で Gemini のさまざまな機能を示す類似画像を検索するだけです。ただし、この設計パターンをスケーリングして、複数のドキュメントにわたって画像を照合する（関連する画像を見つける）ことができます。

ノートブックの「Image search」（画像検索）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。画像検索

タスク 6. 検索拡張生成（mRAG）を使用してマルチモーダル QA システムを構築する

最後のタスクでは、すべてをまとめてマルチモーダル RAG を実装します。マルチモーダル RAG を実装するために、ユーザーはドキュメント内のテキストと画像の両方に存在する情報に関連するテキストクエリを提供します。テキスト検索メソッドを使用して、クエリに類似したテキストチャンクがドキュメントページから取得されます。同時に、画像検索によって、クエリに一致する説明を持つ画像が特定されます。

関連するテキストと画像を組み合わせたものが Gemini のコンテキストとなり、Gemini はクエリに対する回答を生成します。その際、特定の指示を参照する可能性もあります。最後に、引用は、回答の作成に使用されたテキストと画像を示します。

ノートブックの「Building Multimodal QA System with retrieval augmented generation (mRAG)」（検索拡張生成（mRAG）を使用したマルチモーダル QA システムの構築）セクションを実行します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。検索拡張生成（mRAG）を使用してマルチモーダル QA システムを構築する

お疲れさまでした

これで完了です。このラボでは、Vertex AI の Gemini API を使用してマルチモーダル質問応答システムを構築する方法を学びました。具体的には、テキストクエリと画像クエリを使用してテキストと画像を検索できるドキュメント検索エンジンを構築しました。また、テキストと画像の両方を使用して質問に回答できるマルチモーダル質問応答システムも構築しました。

次のステップと詳細情報

以下のリソースで Gemini に関する理解を深めましょう。

Gemini の概要
Vertex AI の生成 AI に関するドキュメント
生成 AI に関する YouTube チャンネル
Vertex AI クックブック。生成 AI に関するノートブックを集めた、検索可能なギャラリーです。
Google Cloud 生成 AI レポジトリ。他のノートブックやサンプルを確認できます。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベストプラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 7 月 11 日

ラボの最終テスト日: 2025 年 7 月 11 日

Vertex AI を使用して DIY のマルチモーダル質問応答システムを構築する

GSP1279

概要

前提条件

目標

設定と要件

[ラボを開始] ボタンをクリックする前に

ラボを開始して Google Cloud コンソールにログインする方法

タスク 1. Vertex AI Workbench でノートブックを開く

タスク 2. ノートブックを設定する

タスク 3. テキストと画像を含むドキュメントのメタデータを構築する

タスク 4. テキスト検索

タスク 5. 画像検索

タスク 6. 検索拡張生成（mRAG）を使用してマルチモーダル QA システムを構築する

お疲れさまでした

次のステップと詳細情報

Google Cloud トレーニングと認定資格

始める前に

シークレット ブラウジングを使用する

コンソールにログインする

シークレット ブラウジングを使用してラボを実行する

シークレットブラウジングを使用する

シークレットブラウジングを使用してラボを実行する