arrow_back

使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件:挑戰實驗室

登录 加入
访问 700 多个实验和课程

使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件:挑戰實驗室

实验 1 小时 30 分钟 universal_currency_alt 5 积分 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
访问 700 多个实验和课程

GSP520

Google Cloud 自學實驗室標誌

總覽

在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。

在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。

若想滿分達標,就必須在時限內成功完成所有任務!

本實驗室適合報名下列技能徽章課程的學員:使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件。準備好迎接挑戰了嗎?

測驗主題

  • 使用 Gemini 的多模態功能,運用多模態提示從文字和影像資料擷取資訊、生成影片說明,並擷取影片以外的額外資訊
  • 使用 Gemini 的多模態檢索增強生成 (RAG) 功能,為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊,並顯示引用資料

設定和需求

瞭解以下事項後,再點選「Start Lab」按鈕

請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。

您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。

為了順利完成這個實驗室,請先確認:

  • 可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意事項:請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室,這可以防止個人帳戶和學員帳戶之間的衝突,避免個人帳戶產生額外費用。
  • 是時候完成實驗室活動了!別忘了,活動一旦開始將無法暫停。
注意事項:務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶,可能會產生額外費用。

開啟 Vertex AI Workbench 中的筆記本

  1. 前往 Google Cloud 控制台,依序點按「導覽選單」圖示 「導覽選單」圖示 >「Vertex AI」>「Workbench」

  2. 找出 執行個體,點按「Open JupyterLab」按鈕。

Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。

注意:如果在 JupyterLab 沒有看見筆記本,請按照以下額外步驟重設執行個體:

1. 關閉 JupyterLab 的瀏覽器分頁,回到 Workbench 首頁。

2. 勾選執行個體名稱旁的核取方塊,然後點按「重設」

3. 「開啟 JupyterLab」按鈕再次啟用後,等待一分鐘,然後點按「開啟 JupyterLab」

設定筆記本

  1. 點選「」檔案。

  2. 出現「Select Kernel」對話方塊時,從可用核心清單中選取「Python 3」

  3. 開始工作 1 前,請先執行筆記本中「設定和要求」部分的 4 個儲存格。

  4. 使用下列資訊,為專案初始化 Gen AI SDK for Python:

    • 「Project ID」請輸入
    • 「Location」請輸入

挑戰情境

您是某間媒體公司的行銷廣告活動統籌專員,與行銷經理密切合作,共同規劃、執行及評估廣告活動來達成行銷目標。您最近與 Google 簽訂了令人期待的新合約。身為行銷廣告活動統籌專員,您迫不及待想瞭解各項學習資源,盡快熟悉 Google 的品牌和品牌識別,因此打算運用 Gemini 的創新功能,更有效率地查看 Google 的品牌宣傳指南、過往的廣告活動、產品廣告、客戶見證和財務報表來進一步瞭解 Google。

在本挑戰中,您會先使用 Gemini 的多模態功能,運用多模態提示從文字和影像資料擷取資訊、生成影片說明,並擷取影片以外的額外資訊。此外,您也會使用 Gemini 的多模態檢索增強生成 (RAG) 功能,為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊,並顯示引用資料。

工作 1:透過 Gemini 生成多模態洞察資料

在這項工作,您會使用 Gemini 熟悉 Google 的品牌和品牌識別。Gemini 是支援多模態提示詞的多模態模型。您會在提示詞中加入文字、圖像和影片,並取得文字或程式碼形式的回覆。

請查看指定的筆記本部分,然後按照對應的指示完成這項工作。

注意:請先儲存筆記本指令碼,再點選每項工作的「Check my progress」按鈕。
  1. 按照「使用多張圖像推論」部分的指示操作,使用多模態模型研究多張圖像。

點選「Check my progress」,確認目標已達成。 以多張圖像推論。

  1. 按照「圖片的異同處」部分的指示操作,使用多模態模型比較圖像。

點選「Check my progress」,確認目標已達成。 圖片的異同處。

  1. 按照「生成影片說明」部分的指示操作,使用多模態模型生成影片說明。

    使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
  2. 按照「擷取整部影片中的物件標記」部分的指示操作,使用多模態模型擷取影片中的物件標記。

    使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
  3. 按照「詢問更多有關影片的問題」部分的指示操作,使用多模態模型進一步瞭解影片內容。

    使用 [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) 完成這項步驟。
  4. 按照「擷取影片以外的額外資訊」部分的指示操作,使用多模態模型取得影像的延伸資訊。

點選「Check my progress」,確認目標已達成。 生成影片說明並擷取影片以外的額外資訊。

工作 2:使用多模態檢索增強生成 (RAG) 功能擷取並整合資訊

請查看指定的筆記本部分,然後按照對應的指示完成這項工作。

以下是要用來完成工作 2 的資料和輔助函式:

  • Google 服務的服務條款文件,當中定義 Google 和使用者之間的關係。這份文件涵蓋 Google 能提供的服務、使用這些服務的規則、相關內容的智慧財產權,以及爭議解決流程。這份範例文件僅包含文字。

  • 修改版 Google-10K:完整說明了 Google 的財務表現、業務營運、管理和風險因素等內容。由於原始文件相當龐大,您將改用只有 14 頁的修改版,內容分為第 1 部分第 2 部分。雖然經過節錄,但除了文字,本範例文件仍有表格和圖表等圖像。

您也會使用下列輔助函式來完成之後的工作。(如需更多資訊,請參閱 GitHub 的說明):

  • 「檢查經過處理的文字中繼資料」函式說明:

    • text:頁面原文。
    • text_embedding_page:頁面原文的嵌入。
    • chunk_text:拆解成多個小分塊的原文。
    • chunk_number:各文字分塊的索引。
    • text_embedding_chunk:各文字分塊的嵌入。
  • 「檢查經過處理的圖像中繼資料」函式說明:

    • img_desc:Gemini 根據圖像生成的文字說明。
    • mm_embedding_from_text_desc_and_img:圖片及其說明的嵌入組合,當中擷取了影像和文字資訊。
    • mm_embedding_from_img_only:不含說明的圖片嵌入,可與前述嵌入組合的分析結果做對比。
    • text_embedding_from_image_description:圖像說明的獨立文字嵌入,用於分析與比較文字。
  • 「匯入輔助函式來導入 RAG」函式說明:

    • get_similar_text_from_query():根據查詢的文字,使用餘弦相似度演算法找出文件中的相關文字。此函式運算時會使用中繼資料裡的文字嵌入,且運算結果可根據最高分數、頁面/分塊編號或嵌入大小篩選。
    • print_text_to_text_citation():根據 get_similar_text_from_query() 函式擷取的文字,顯示來源 (引用資料) 和詳細資訊。
    • get_similar_image_from_query():根據查詢的圖片路徑或圖片,找出文件中的相關圖片。此函式會使用中繼資料裡的圖片嵌入。
    • print_text_to_image_citation():根據 `get_similar_image_from_query()`` 函式擷取的圖片顯示來源 (引用資料) 和詳細資訊。
    • get_gemini_response():讓 Gemini 根據輸入的文字和圖片回答問題。
    • display_images():顯示一系列的圖像 (透過路徑或以 PIL 圖像物件形式提供)。
  1. 按照「為包含文字和圖片的文件建立中繼資料」部分的指示操作,匯入並執行輔助函式。

  2. 按照「建立使用者查詢」部分的指示操作,使用提供的變數。

  3. 按照「取得所有相關文字分塊」部分的指示操作,根據查詢擷取相關文字分塊。

  4. 按照「建立 context_text」部分的指示操作,整理文字分塊。

  5. 按照「將脈絡資訊傳送給 Gemini」部分的指示操作,將脈絡資訊傳送給 Gemini 並生成回覆。

點選「Check my progress」,確認目標已達成。 使用多模態檢索增強生成 (RAG) 功能擷取並整合資訊。

恭喜!

完成本挑戰實驗室,代表您能運用 Gemini API 生成文字、建立函式呼叫並說明影片內容。您透過上述工作確認這些功能都符合預期標準,可部署至正式環境。非常好!

徽章:使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件

後續行動/瞭解詳情

歡迎參考下列資源,進一步瞭解 Gemini:

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期:2025 年 7 月 11 日

實驗室上次測試日期:2025 年 7 月 11 日

Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

请使用无痕模式或无痕式浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。