読み込んでいます...
一致する結果は見つかりませんでした。

Google Cloud コンソールでスキルを試す

Gemini によるマルチモダリティとマルチモーダル RAG を使用したリッチ ドキュメントの検査

700 以上のラボとコースにアクセス

Gemini によるマルチモダリティとマルチモーダル RAG を使用したリッチ ドキュメントの検査: チャレンジラボ

ラボ 1時間 30分 universal_currency_alt クレジット: 5 show_chart 中級
info このラボでは、学習をサポートする AI ツールが組み込まれている場合があります。
700 以上のラボとコースにアクセス

GSP520

概要

チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。

チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。

100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。

このラボは、「Gemini によるマルチモダリティとマルチモーダル RAG を使用したリッチ ドキュメントの検査」スキルバッジ コースに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。

テスト対象トピック

  • Gemini のマルチモダリティを活用して、マルチモーダル プロンプトでテキストと視覚データから情報を抽出し、動画の説明を生成し、動画の範囲を超えた追加情報を取得する
  • Gemini を使用したマルチモーダル検索拡張生成(RAG)により、テキストと画像を含むドキュメントのメタデータを作成し、関連するすべてのテキスト チャンクを取得し、引用をプリントする

設定と要件

[ラボを開始] ボタンをクリックする前に

こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。

このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。

このラボを完了するためには、下記が必要です。

  • 標準的なインターネット ブラウザ(Chrome を推奨)
注: このラボの実行には、シークレット モード(推奨)またはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウント間の競合を防ぎ、個人アカウントに追加料金が発生しないようにすることができます。
  • ラボを完了するための時間(開始後は一時停止できません)
注: このラボでは、受講者アカウントのみを使用してください。別の Google Cloud アカウントを使用すると、そのアカウントに料金が発生する可能性があります。

Vertex AI Workbench でノートブックを開く

  1. Google Cloud コンソールのナビゲーション メニュー)で、[Vertex AI] > [ワークベンチ] の順にクリックします。

  2. インスタンスを見つけて、[JupyterLab を開く] ボタンをクリックします。

Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。

注: JupyterLab にノートブックが表示されない場合は、次の追加手順でインスタンスを再設定してください。

1. JupyterLab のブラウザタブを閉じて、Workbench のホームページに戻ります。

2. インスタンス名の横にあるチェックボックスをオンにして、[リセット] をクリックします。

3. [JupyterLab を開く] ボタンが再度有効になったら、1 分待ってから [JupyterLab を開く] をクリックします。

ノートブックを設定する

  1. ファイルをクリックします。

  2. [Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。

  3. タスク 1 に進む前に、ノートブックの「Setup and requirements」(設定と要件)セクションの 4 つのセルを順に実行します。

  4. 次の情報を使用して、プロジェクトで Gen AI SDK for Python を初期化します。

    • [プロジェクト ID] に「」と入力します。
    • [ロケーション] に「」と入力します。

チャレンジ シナリオ

あなたはメディア企業に勤務するマーケティング キャンペーン コーディネーターであり、販売目標を達成するためにマーケティング マネージャーと密に連携してキャンペーンの計画、実施、評価を行っています。最近、Google と魅力的な新規契約を結びました。マーケティング キャンペーン コーディネーターとして、Google ブランドと Google ブランド アイデンティティについての教材に取り組み、なるべく短時間で理解したいと考えています。そのため、Gemini の革新的な機能を活用して、Google のブランド ガイドライン、これまでのキャンペーン、プロダクトの広告、お客様の声、財務レポートを確認し、Google に関する詳しい情報を効率的に得るつもりです。

このチャレンジ ラボでは、Gemini のマルチモダリティを活用することにより、まずマルチモーダル プロンプトでテキストと視覚データから情報を抽出し、動画の説明を生成し、動画の範囲を超えた追加情報を取得します。また、Gemini を使用したマルチモーダル検索拡張生成(RAG)により、テキストと画像を含むドキュメントのメタデータを作成し、関連するすべてのテキスト チャンクを取得して引用をプリントします。

タスク 1. Gemini を使用してマルチモーダル分析情報を生成する

このタスクでは、マルチモーダル プロンプトをサポートするマルチモーダル モデルである Gemini を使用して、Google ブランドと Google ブランド アイデンティティについて理解します。プロンプト リクエストにテキスト、画像、動画を含めて、テキストまたはコードの回答を取得します。

このタスクを完了するには、ノートブックの指定されたセクションの手順に沿って操作します。

注: 各タスクの [進行状況を確認] ボタンをクリックする前に、ノートブック スクリプトを保存してください。
  1. マルチモーダル モデルを使用して複数の画像から情報を得るには、「複数の画像にわたる画像理解」セクションの手順に沿って操作します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 複数の画像にわたる画像理解

  1. マルチモーダル モデルを使用して画像を比較するには、「画像間の類似点や相違点」セクションの手順に沿って操作します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 画像間の類似点や相違点

  1. マルチモーダル モデルを使用して動画の説明を生成するには、「動画の説明の生成」セクションの手順に沿って操作します。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
  2. マルチモーダル モデルを使用して動画全体からオブジェクトのタグを抽出するには、「動画全体からのオブジェクトのタグの抽出」セクションの手順に沿って操作します。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
  3. マルチモーダル モデルを使用して動画をさらに詳しく調べるには、「動画に関するその他の質問への回答」セクションの手順に沿って操作します。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
  4. マルチモーダル モデルを使用して画像からさらに多くの情報を取得するには、「動画の範囲を超えた追加情報の取得」セクションの手順に沿って操作します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 動画の説明を生成し、動画の範囲を超えて追加情報を取得する

タスク 2. マルチモーダル検索拡張生成(RAG)を使用して情報を取得、統合する

このタスクを完了するには、ノートブックの指定されたセクションの手順に沿って操作します。

タスク 2 で利用できるデータとヘルパー関数:

  • Google サービスの利用規約ドキュメント。Google とユーザーの関係を定義しています。ユーザーが Google サービスを利用するうえで期待できること、Google サービスの使用ルール、コンテンツに関連した知的財産権、紛争や意見の相違を解決する手順について説明しています。このサンプル ドキュメントにはテキストのみが含まれています。

  • Google-10K の変更バージョン。Google の財務実績、事業運営、管理、リスク要因の包括的な概要を提供します。オリジナルのドキュメントはかなり大きいため、代わりに 14 ページのみの変更バージョンを使用します。このバージョンはパート 1パート 2 の 2 つに分かれています。ページ数は少ないものの、サンプル ドキュメントにはテキストに加えて、表、チャート、グラフなどの画像も含まれています。

タスクを完了するには、次のヘルパー関数からも選択します。これらの関数の詳細については、GitHub をご覧ください)。

  • 処理されたテキスト メタデータを調べる関数:

    • text: ページから抽出した元のテキスト。
    • text_embedding_page: ページから抽出した元のテキストのエンべディング。
    • chunk_text: 小さなチャンクに分割された元のテキスト。
    • chunk_number: 各テキスト チャンクのインデックス。
    • text_embedding_chunk: 各テキスト チャンクのエンべディング。
  • 処理された画像メタデータを調べる関数:

    • img_desc: 画像から Gemini が生成した説明(テキスト形式)。
    • mm_embedding_from_text_desc_and_img: 画像とその説明を組み合わせたエンベディング。視覚情報とテキスト情報の両方を表します。
    • mm_embedding_from_img_only: 説明なしの画像のエンベディング。説明ベースの分析と比較するためのものです。
    • text_embedding_from_image_description: 生成された説明のテキスト エンベディングを分離し、テキストに基づく分析と比較を可能にします。
  • ヘルパー関数をインポートして RAG を実装する関数:

    • get_similar_text_from_query(): テキストクエリが入力されると、コサイン類似度アルゴリズムを使用して、ドキュメントから関連するテキストを取得します。メタデータから抽出したテキスト エンベディングを使用して計算を行います。結果はトップスコア、ページ / チャンク番号、エンベディングのサイズでフィルタできます。
    • print_text_to_text_citation(): get_similar_text_from_query() 関数で取得したテキストのソース(引用)と詳細をプリントします。
    • get_similar_image_from_query(): 画像パスまたは画像が入力されると、ドキュメントから関連する画像を取得します。メタデータからの画像のエンベディングを使用します。
    • print_text_to_image_citation(): get_similar_image_from_query() 関数で取得した画像のソース(引用)と詳細をプリントします。
    • get_gemini_response(): Gemini モデルと連携して、テキストと画像の入力の組み合わせに基づいて質問に回答します。
    • display_images(): パスまたは PIL イメージ オブジェクトとして提供される一連の画像を表示します。
  1. ヘルパー関数をインポートして実行するには、「テキストと画像を含むドキュメントのメタデータを構築する」セクションの手順に沿って操作します。

  2. 提供された変数を使用するには、「ユーザーのクエリを作成する」セクションの手順に沿って操作します。

  3. クエリに基づいて関連するテキスト チャンクを取得するには、「関連するすべてのテキスト チャンクを取得する」セクションの手順に沿って操作します。

  4. テキスト チャンクを整理するには、「context_text を作成する」セクションの手順に沿って操作します。

  5. コンテキストを Gemini に渡して回答を生成するには、「コンテキストを Gemini に渡す」の手順に沿って操作します。

[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。 マルチモーダル検索拡張生成(RAG)を使用して情報を取得、統合する

お疲れさまでした

このチャレンジラボを通じて、Gemini API を活用したテキストの生成、関数呼び出しの作成、動画コンテンツの説明に習熟していることを証明できました。また、これらの機能が本番環境へのデプロイに求められる基準を満たしていることも確認できました。ラボは以上で完了です。

次のステップと詳細情報

以下のリソースで Gemini に関する理解を深めましょう。

Google Cloud トレーニングと認定資格

Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。

マニュアルの最終更新日: 2025 年 7 月 11 日

ラボの最終テスト日: 2025 年 7 月 11 日

Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。

前へ 次へ

始める前に

  1. ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
  2. ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
  3. 画面左上の [ラボを開始] をクリックして開始します

このコンテンツは現在ご利用いただけません

利用可能になりましたら、メールでお知らせいたします

ありがとうございます。

利用可能になりましたら、メールでご連絡いたします

1 回に 1 つのラボ

既存のラボをすべて終了して、このラボを開始することを確認してください

シークレット ブラウジングを使用してラボを実行する

このラボの実行には、シークレット モードまたはシークレット ブラウジング ウィンドウを使用してください。これにより、個人アカウントと受講者アカウントの競合を防ぎ、個人アカウントに追加料金が発生することを防ぎます。
プレビュー