
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Import libraries and set up the notebook
/ 20
Import helper functions to build metadata
/ 10
Load pre-computed metadata of text and images
/ 10
Inspect the processed text and image data
/ 10
Text search
/ 20
Image search
/ 10
Building Multimodal QA System with retrieval augmented generation (mRAG)
/ 20
本實驗室將引導您使用 Google 的 Vertex AI 和強大的 Gemini 系列模型,從頭開始建構多模態問答系統。您將親手打造一個系統,深入瞭解這類系統的運作方式,而不使用預先建構的工具或程式庫。在實作的過程中,您將瞭解問答系統的運作方式,並掌握相關知識,未來可自行自訂及最佳化問答系統。您也會瞭解多模態檢索增強生成 (RAG) 相較於傳統文字型 RAG 的優勢,並探索如何透過納入視覺資訊,強化知識存取及推理能力。
開始這個實驗室之前,您應已熟悉下列概念:
在本實驗室中,您將瞭解如何運用多模態檢索增強生成 (RAG) 技術,建構文件搜尋引擎:
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
前往 Google Cloud 控制台,依序點按「導覽選單」圖示 >「Vertex AI」>「Workbench」。
找出
Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。
1. 關閉 JupyterLab 的瀏覽器分頁,回到 Workbench 首頁。
2. 勾選執行個體名稱旁的核取方塊,然後點按「重設」。
3. 「開啟 JupyterLab」按鈕再次啟用後,等待一分鐘,然後點按「開啟 JupyterLab」。
開啟
出現「Select Kernel」對話方塊時,從可用核心清單中選取「Python 3」。
完成筆記本的「Getting Started」和「Import libraries」部分。
點選「Check my progress」,確認目標已達成。
在這個部分,您會匯入輔助函式來建立中繼資料、從來源文件載入預先計算的文字和圖片中繼資料,並檢查處理後的文字和圖片資料。
點選「Check my progress」,確認目標已達成。
在這個部分,您將透過 Gemini 模型以簡單的問題進行搜尋,看看使用文字嵌入的簡易文字搜尋模型能否回答問題。您也會使用 Gemini 模型的多模態功能,搜尋與文字查詢內容相似的圖片。
點選「Check my progress」,確認目標已達成。
請試想這個情境:您希望用實際圖片當成搜尋圖片的線索,而不是輸入搜尋字詞。就像使用迷你地圖搜尋,而不是輸入地址。這與「顯示更多類似內容」的要求不同。因此,無需輸入「Gemini 2.0 長脈絡的各種範例」,只要提供圖片並說「幫我找出更多類似圖片」。
在這個部分,您只會在單一文件中尋找呈現 Gemini 各種功能的類似圖片。不過,您可以擴充這個設計模式,在多份文件中找出相關圖片。
點選「Check my progress」,確認目標已達成。
這是最後一項工作,您將整合所有內容,實作多模態 RAG。為實作多模態 RAG,使用者須提供文字查詢,內容與文件中文字和圖片的資訊相關。系統會使用文字搜尋方法,從文件頁面擷取與查詢內容相似的文字分塊。同時,圖片搜尋功能會找出說明與查詢內容相符的圖片。
Gemini 會以相關文字和圖片為脈絡資訊,生成查詢的解答,並可能參考特定指示。最後,引文會標示用於生成回覆的文字和圖片。
點選「Check my progress」,確認目標已達成。
恭喜!在本實驗室中,您學會如何使用 Vertex AI 的 Gemini API 建構多模態問答系統。您建立了一個文件搜尋引擎,可使用文字和圖片查詢搜尋文字和圖片。您也打造了多模態問答系統,可使用文字和圖片回答問題。
歡迎參考下列資源,進一步瞭解 Gemini:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 7 月 11 日
實驗室上次測試日期:2025 年 7 月 11 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验