
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
在挑戰研究室中,您會在特定情境下完成一系列任務。挑戰研究室不會提供逐步說明,您將運用從課程研究室學到的技巧,自行找出方法完成任務!自動評分系統 (如本頁所示) 將根據您是否正確完成任務來提供意見回饋。
在您完成任務的期間,挑戰研究室不會介紹新的 Google Cloud 概念。您須靈活運用所學技巧,例如變更預設值或詳讀並研究錯誤訊息,解決遇到的問題。
若想滿分達標,就必須在時限內成功完成所有任務!
本實驗室適合報名下列技能徽章課程的學員:使用 Gemini 多模態功能和多模態 RAG 檢查複合型文件。準備好迎接挑戰了嗎?
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
前往 Google Cloud 控制台,依序點按「導覽選單」圖示 >「Vertex AI」>「Workbench」。
找出
Workbench 執行個體的 JupyterLab 介面會在新瀏覽器分頁開啟。
1. 關閉 JupyterLab 的瀏覽器分頁,回到 Workbench 首頁。
2. 勾選執行個體名稱旁的核取方塊,然後點按「重設」。
3. 「開啟 JupyterLab」按鈕再次啟用後,等待一分鐘,然後點按「開啟 JupyterLab」。
點選「
出現「Select Kernel」對話方塊時,從可用核心清單中選取「Python 3」。
開始工作 1 前,請先執行筆記本中「設定和要求」部分的 4 個儲存格。
使用下列資訊,為專案初始化 Gen AI SDK for Python:
您是某間媒體公司的行銷廣告活動統籌專員,與行銷經理密切合作,共同規劃、執行及評估廣告活動來達成行銷目標。您最近與 Google 簽訂了令人期待的新合約。身為行銷廣告活動統籌專員,您迫不及待想瞭解各項學習資源,盡快熟悉 Google 的品牌和品牌識別,因此打算運用 Gemini 的創新功能,更有效率地查看 Google 的品牌宣傳指南、過往的廣告活動、產品廣告、客戶見證和財務報表來進一步瞭解 Google。
在本挑戰中,您會先使用 Gemini 的多模態功能,運用多模態提示從文字和影像資料擷取資訊、生成影片說明,並擷取影片以外的額外資訊。此外,您也會使用 Gemini 的多模態檢索增強生成 (RAG) 功能,為含有文字和圖片的文件建立中繼資料、取得所有相關文字分塊,並顯示引用資料。
在這項工作,您會使用 Gemini 熟悉 Google 的品牌和品牌識別。Gemini 是支援多模態提示詞的多模態模型。您會在提示詞中加入文字、圖像和影片,並取得文字或程式碼形式的回覆。
請查看指定的筆記本部分,然後按照對應的指示完成這項工作。
點選「Check my progress」,確認目標已達成。
點選「Check my progress」,確認目標已達成。
按照「生成影片說明」部分的指示操作,使用多模態模型生成影片說明。
按照「擷取整部影片中的物件標記」部分的指示操作,使用多模態模型擷取影片中的物件標記。
按照「詢問更多有關影片的問題」部分的指示操作,使用多模態模型進一步瞭解影片內容。
按照「擷取影片以外的額外資訊」部分的指示操作,使用多模態模型取得影像的延伸資訊。
點選「Check my progress」,確認目標已達成。
請查看指定的筆記本部分,然後按照對應的指示完成這項工作。
以下是要用來完成工作 2 的資料和輔助函式:
Google 服務的服務條款文件,當中定義 Google 和使用者之間的關係。這份文件涵蓋 Google 能提供的服務、使用這些服務的規則、相關內容的智慧財產權,以及爭議解決流程。這份範例文件僅包含文字。
修改版 Google-10K:完整說明了 Google 的財務表現、業務營運、管理和風險因素等內容。由於原始文件相當龐大,您將改用只有 14 頁的修改版,內容分為第 1 部分和第 2 部分。雖然經過節錄,但除了文字,本範例文件仍有表格和圖表等圖像。
您也會使用下列輔助函式來完成之後的工作。(如需更多資訊,請參閱 GitHub 的說明):
「檢查經過處理的文字中繼資料」函式說明:
「檢查經過處理的圖像中繼資料」函式說明:
「匯入輔助函式來導入 RAG」函式說明:
get_similar_text_from_query()
函式擷取的文字,顯示來源 (引用資料) 和詳細資訊。按照「為包含文字和圖片的文件建立中繼資料」部分的指示操作,匯入並執行輔助函式。
按照「建立使用者查詢」部分的指示操作,使用提供的變數。
按照「取得所有相關文字分塊」部分的指示操作,根據查詢擷取相關文字分塊。
按照「建立 context_text」部分的指示操作,整理文字分塊。
按照「將脈絡資訊傳送給 Gemini」部分的指示操作,將脈絡資訊傳送給 Gemini 並生成回覆。
點選「Check my progress」,確認目標已達成。
完成本挑戰實驗室,代表您能運用 Gemini API 生成文字、建立函式呼叫並說明影片內容。您透過上述工作確認這些功能都符合預期標準,可部署至正式環境。非常好!
歡迎參考下列資源,進一步瞭解 Gemini:
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 7 月 11 日
實驗室上次測試日期:2025 年 7 月 11 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验