
始める前に
- ラボでは、Google Cloud プロジェクトとリソースを一定の時間利用します
- ラボには時間制限があり、一時停止機能はありません。ラボを終了した場合は、最初からやり直す必要があります。
- 画面左上の [ラボを開始] をクリックして開始します
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
チャレンジラボでは、シナリオと一連のタスクが提供されます。手順ガイドに沿って進める形式ではなく、コース内のラボで習得したスキルを駆使して、ご自身でタスクを完了していただきます。タスクが適切に完了したかどうかは、このページに表示される自動スコアリング システムで確認できます。
チャレンジラボは、Google Cloud の新しいコンセプトについて学習するためのものではありません。デフォルト値を変更する、エラー メッセージを読み調査を行ってミスを修正するなど、習得したスキルを応用する能力が求められます。
100% のスコアを達成するには、制限時間内に全タスクを完了する必要があります。
このラボは、「Gemini によるマルチモダリティとマルチモーダル RAG を使用したリッチ ドキュメントの検査」スキルバッジ コースに登録している受講者を対象としています。準備が整ったらチャレンジを開始しましょう。
こちらの説明をお読みください。ラボには時間制限があり、一時停止することはできません。タイマーは、Google Cloud のリソースを利用できる時間を示しており、[ラボを開始] をクリックするとスタートします。
このハンズオンラボでは、シミュレーションやデモ環境ではなく実際のクラウド環境を使って、ラボのアクティビティを行います。そのため、ラボの受講中に Google Cloud にログインおよびアクセスするための、新しい一時的な認証情報が提供されます。
このラボを完了するためには、下記が必要です。
Google Cloud コンソールのナビゲーション メニュー()で、[Vertex AI] > [ワークベンチ] の順にクリックします。
Workbench インスタンスの JupyterLab インターフェースが新しいブラウザタブで開きます。
1. JupyterLab のブラウザタブを閉じて、Workbench のホームページに戻ります。
2. インスタンス名の横にあるチェックボックスをオンにして、[リセット] をクリックします。
3. [JupyterLab を開く] ボタンが再度有効になったら、1 分待ってから [JupyterLab を開く] をクリックします。
[Select Kernel] ダイアログで、使用可能なカーネルのリストから [Python 3] を選択します。
タスク 1 に進む前に、ノートブックの「Setup and requirements」(設定と要件)セクションの 4 つのセルを順に実行します。
次の情報を使用して、プロジェクトで Gen AI SDK for Python を初期化します。
あなたはメディア企業に勤務するマーケティング キャンペーン コーディネーターであり、販売目標を達成するためにマーケティング マネージャーと密に連携してキャンペーンの計画、実施、評価を行っています。最近、Google と魅力的な新規契約を結びました。マーケティング キャンペーン コーディネーターとして、Google ブランドと Google ブランド アイデンティティについての教材に取り組み、なるべく短時間で理解したいと考えています。そのため、Gemini の革新的な機能を活用して、Google のブランド ガイドライン、これまでのキャンペーン、プロダクトの広告、お客様の声、財務レポートを確認し、Google に関する詳しい情報を効率的に得るつもりです。
このチャレンジ ラボでは、Gemini のマルチモダリティを活用することにより、まずマルチモーダル プロンプトでテキストと視覚データから情報を抽出し、動画の説明を生成し、動画の範囲を超えた追加情報を取得します。また、Gemini を使用したマルチモーダル検索拡張生成(RAG)により、テキストと画像を含むドキュメントのメタデータを作成し、関連するすべてのテキスト チャンクを取得して引用をプリントします。
このタスクでは、マルチモーダル プロンプトをサポートするマルチモーダル モデルである Gemini を使用して、Google ブランドと Google ブランド アイデンティティについて理解します。プロンプト リクエストにテキスト、画像、動画を含めて、テキストまたはコードの回答を取得します。
このタスクを完了するには、ノートブックの指定されたセクションの手順に沿って操作します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
マルチモーダル モデルを使用して動画の説明を生成するには、「動画の説明の生成」セクションの手順に沿って操作します。
マルチモーダル モデルを使用して動画全体からオブジェクトのタグを抽出するには、「動画全体からのオブジェクトのタグの抽出」セクションの手順に沿って操作します。
マルチモーダル モデルを使用して動画をさらに詳しく調べるには、「動画に関するその他の質問への回答」セクションの手順に沿って操作します。
マルチモーダル モデルを使用して画像からさらに多くの情報を取得するには、「動画の範囲を超えた追加情報の取得」セクションの手順に沿って操作します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
このタスクを完了するには、ノートブックの指定されたセクションの手順に沿って操作します。
タスク 2 で利用できるデータとヘルパー関数:
Google サービスの利用規約ドキュメント。Google とユーザーの関係を定義しています。ユーザーが Google サービスを利用するうえで期待できること、Google サービスの使用ルール、コンテンツに関連した知的財産権、紛争や意見の相違を解決する手順について説明しています。このサンプル ドキュメントにはテキストのみが含まれています。
Google-10K の変更バージョン。Google の財務実績、事業運営、管理、リスク要因の包括的な概要を提供します。オリジナルのドキュメントはかなり大きいため、代わりに 14 ページのみの変更バージョンを使用します。このバージョンはパート 1 とパート 2 の 2 つに分かれています。ページ数は少ないものの、サンプル ドキュメントにはテキストに加えて、表、チャート、グラフなどの画像も含まれています。
タスクを完了するには、次のヘルパー関数からも選択します。これらの関数の詳細については、GitHub をご覧ください)。
処理されたテキスト メタデータを調べる関数:
処理された画像メタデータを調べる関数:
ヘルパー関数をインポートして RAG を実装する関数:
get_similar_text_from_query()
関数で取得したテキストのソース(引用)と詳細をプリントします。ヘルパー関数をインポートして実行するには、「テキストと画像を含むドキュメントのメタデータを構築する」セクションの手順に沿って操作します。
提供された変数を使用するには、「ユーザーのクエリを作成する」セクションの手順に沿って操作します。
クエリに基づいて関連するテキスト チャンクを取得するには、「関連するすべてのテキスト チャンクを取得する」セクションの手順に沿って操作します。
テキスト チャンクを整理するには、「context_text を作成する」セクションの手順に沿って操作します。
コンテキストを Gemini に渡して回答を生成するには、「コンテキストを Gemini に渡す」の手順に沿って操作します。
[進行状況を確認] をクリックして、目標に沿って進んでいることを確認します。
このチャレンジラボを通じて、Gemini API を活用したテキストの生成、関数呼び出しの作成、動画コンテンツの説明に習熟していることを証明できました。また、これらの機能が本番環境へのデプロイに求められる基準を満たしていることも確認できました。ラボは以上で完了です。
以下のリソースで Gemini に関する理解を深めましょう。
Google Cloud トレーニングと認定資格を通して、Google Cloud 技術を最大限に活用できるようになります。必要な技術スキルとベスト プラクティスについて取り扱うクラスでは、学習を継続的に進めることができます。トレーニングは基礎レベルから上級レベルまであり、オンデマンド、ライブ、バーチャル参加など、多忙なスケジュールにも対応できるオプションが用意されています。認定資格を取得することで、Google Cloud テクノロジーに関するスキルと知識を証明できます。
マニュアルの最終更新日: 2025 年 7 月 11 日
ラボの最終テスト日: 2025 年 7 月 11 日
Copyright 2025 Google LLC. All rights reserved. Google および Google のロゴは Google LLC の商標です。その他すべての企業名および商品名はそれぞれ各社の商標または登録商標です。
このコンテンツは現在ご利用いただけません
利用可能になりましたら、メールでお知らせいたします
ありがとうございます。
利用可能になりましたら、メールでご連絡いたします
1 回に 1 つのラボ
既存のラボをすべて終了して、このラボを開始することを確認してください