
始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
Import libraries and set up the notebook
/ 20
Import helper functions to build metadata
/ 10
Load pre-computed metadata of text and images
/ 10
Inspect the processed text and image data
/ 10
Text search
/ 20
Image search
/ 10
Building Multimodal QA System with retrieval augmented generation (mRAG)
/ 20
このラボでは、Google の Vertex AI と強力な Gemini モデル ファミリーを使用して、マルチモーダル質問応答システムをゼロから構築する手順を解説します。事前構築されたツールやライブラリに頼らず、自分で構築することで、このようなシステムの仕組みを深く理解できます。このハンズオン体験を通じて、プロセスをわかりやすく学び、将来的に独自の質問応答システムをカスタマイズおよび最適化するための知識を身につけることができます。また、従来のテキストベースの検索拡張生成(RAG)と比較して、マルチモーダル RAG の利点を探り、視覚情報を組み込むことでナレッジへのアクセスや推論能力がどのように向上するかを学びます。
このラボを開始する前に、以下について理解しておく必要があります。
このラボでは、マルチモーダル検索拡張生成(RAG)を使用してドキュメント検索エンジンを構築する方法を学びます。
こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。
このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
[ラボを開始] ボタンをクリックします。ラボの料金をお支払いいただく必要がある場合は、表示されるダイアログでお支払い方法を選択してください。 左側の [ラボの詳細] ペインには、以下が表示されます。
[Google Cloud コンソールを開く] をクリックします(Chrome ブラウザを使用している場合は、右クリックして [シークレット ウィンドウで開く] を選択します)。
ラボでリソースがスピンアップし、別のタブで [ログイン] ページが表示されます。
ヒント: タブをそれぞれ別のウィンドウで開き、並べて表示しておきましょう。
必要に応じて、下のユーザー名をコピーして、[ログイン] ダイアログに貼り付けます。
[ラボの詳細] ペインでもユーザー名を確認できます。
[次へ] をクリックします。
以下のパスワードをコピーして、[ようこそ] ダイアログに貼り付けます。
[ラボの詳細] ペインでもパスワードを確認できます。
[次へ] をクリックします。
その後次のように進みます。
その後、このタブで Google Cloud コンソールが開きます。
Google Cloud コンソールのナビゲーション メニュー()で、[Vertex AI] > [ワークベンチ] の順にクリックします。
Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。
1. JupyterLab のブラウザタブを閉じて、Workbench のホームページに戻ります。
2. インスタンス名の横にあるチェックボックスをオンにして、[リセット] をクリックします。
3. [JupyterLab を開く] ボタンが再度有効になったら、1 分待ってから [JupyterLab を開く] をクリックします。
[Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
ノートブックの「Getting Started」(スタートガイド)セクションと「Import libraries」(ライブラリのインポート)セクションをすべて実行します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
このセクションでは、メタデータを構築するためのヘルパー関数をインポートし、ソース ドキュメントからテキストと画像の事前計算されたメタデータを読み込み、処理されたテキストと画像データを検査します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
このセクションでは、Gemini モデルを使用して簡単な質問で検索し、テキスト エンベディングを使用したシンプルなテキスト検索で、その質問に回答できるかどうかを確認します。また、Gemini モデルのマルチモーダル機能を使用して、テキストクエリに類似した画像を検索します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
画像を検索するにあたり、単語を入力する代わりに、実際の画像を手がかりとして使用します。住所を文字で入力する代わりに、ミニマップで検索するようなものです。これは「これに似たものをもっと見せて」と尋ねるための別の方法と言えます。「Gemini 2.0 の長いコンテキストのさまざまな例」と入力する代わりに、その画像を使って「これに似たものを探して」と指示します。
このセクションでは、1 つのドキュメント内で Gemini のさまざまな機能を示す類似画像を検索するだけです。ただし、この設計パターンをスケーリングして、複数のドキュメントにわたって画像を照合する(関連する画像を見つける)ことができます。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
最後のタスクでは、すべてをまとめてマルチモーダル RAG を実装します。マルチモーダル RAG を実装するために、ユーザーはドキュメント内のテキストと画像の両方に存在する情報に関連するテキストクエリを提供します。テキスト検索メソッドを使用して、クエリに類似したテキスト チャンクがドキュメント ページから取得されます。同時に、画像検索によって、クエリに一致する説明を持つ画像が特定されます。
関連するテキストと画像を組み合わせたものが Gemini のコンテキストとなり、Gemini はクエリに対する回答を生成します。その際、特定の指示を参照する可能性もあります。最後に、引用は、回答の作成に使用されたテキストと画像を示します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
これで完了です。このラボでは、Vertex AI の Gemini API を使用してマルチモーダル質問応答システムを構築する方法を学びました。具体的には、テキストクエリと画像クエリを使用してテキストと画像を検索できるドキュメント検索エンジンを構築しました。また、テキストと画像の両方を使用して質問に回答できるマルチモーダル質問応答システムも構築しました。
以下のリソースで Gemini に関する理解を深めましょう。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2025 年 7 月 11 日
ラボの最終テスト日: 2025 年 7 月 11 日
Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください