
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。
在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。
要想获得满分,您必须在该时间段内成功完成所有任务!
我们建议已经报名参加使用多模态 Gemini 和多模态 RAG 检查富文档技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
在 Google Cloud 控制台的导航菜单 () 中依次点击 Vertex AI > Workbench。
找到
Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。
1. 关闭 JupyterLab 的浏览器标签页,然后返回 Workbench 首页。
2. 选中实例名称旁边的复选框,然后点击重置。
3. 打开 JupyterLab 按钮重新启用后,请等待一分钟,然后点击打开 JupyterLab。
点击
在选择内核对话框中,从可用内核列表中选择 Python 3。
运行笔记本的设置和要求部分中的 4 个单元(运行完毕后再开始执行任务 1)。
使用以下信息为您的项目初始化 Gen AI SDK for Python:
您是一家传媒公司的营销活动协调员,与营销经理密切合作,共同规划、执行和评估营销活动,以达成销售目标。最近,您与 Google 签下了一份令人兴奋的新合同。作为营销活动协调员,您迫切希望探索相关材料,从而尽快自行熟悉 Google 品牌和 Google 品牌身份。因此,您计划利用 Gemini 的创新功能查看 Google 的品牌指南、既往营销活动、产品广告、客户赞誉和财务报告,以便更高效地获得有关 Google 的深度分析洞见。
在本挑战中,您首先要将多模态与 Gemini 配合使用,从而使用多模态提示从文本数据和视觉数据中提取信息、生成视频说明、检索视频中不包含的额外信息。此外,您还要将多模态检索增强生成 (RAG) 与 Gemini 配合使用,以构建包含文本和图片的文档的元数据、获取所有相关文本块并输出引用。
在此任务中,您要利用 Gemini(一个支持多模态提示的多模态模型)自行熟悉 Google 品牌和 Google 品牌身份。您的提示请求应包含文本、图片和视频,并且应获取文本或代码形式的回答。
为了完成此任务,请按照笔记本中指定部分中的说明操作。
如需验证是否已完成以下目标,请点击检查我的进度:
如需验证是否已完成以下目标,请点击检查我的进度:
如需使用多模态模型生成视频说明,请按照生成视频说明部分中的说明操作。
如需使用多模态模型提取整个视频中的对象标签,请按照提取视频中对象的标签部分中的说明操作。
如需使用多模态模型进一步探索视频,请按照提出更多关于视频的问题部分中的说明操作。
如需使用多模态模型从图片中获取更多信息,请按照检索视频中不包含的额外信息部分中的说明操作。
如需验证是否已完成以下目标,请点击检查我的进度:
为了完成此任务,请按照笔记本中指定部分中的说明操作。
可用于任务 2 的数据和辅助函数:
Google 产品的“服务条款”文档,界定了 Google 与其用户之间的关系。其中涵盖了 Google 对用户的义务、使用相关服务的规则、与内容相关的知识产权,以及解决争端或不同意见的程序。此示例文档仅包含文本内容。
Google-10K 的修改版,这份文档提供了 Google 公司财务业绩、经营活动、管理和风险系数的综合概览。原始文档较为庞大,因此您在本实验中将使用仅有 14 页的修改版,并且其内容拆分为两部分:第 1 部分和第 2 部分。虽然这份示例文档经过截断处理,但其中仍然包含文本和图片,例如表格、图表和图形。
您还要从下面选择相应的辅助函数,以完成接下来的任务。如需详细了解这些函数,请参阅 GitHub:
对于“检查经过处理的文本元数据”函数:
对于“检查经过处理的图片元数据”函数:
对于“导入辅助函数以实现 RAG”函数:
get_similar_text_from_query()
函数检索到的文本来源(引用)及详细信息。如需导入和运行辅助函数,请按照构建包含文本和图片的文档的元数据部分中的说明操作。
如需使用提供的变量,请按照创建用户查询部分中的说明操作。
如需根据查询检索相关文本块,请按照获取所有相关文本块部分中的说明操作。
如需整理文本块,请按照创建 context_text 中的说明操作。
如需将上下文传递给 Gemini 并生成回复,请按照向 Gemini 传递上下文中的说明操作。
如需验证是否已完成以下目标,请点击检查我的进度:
通过完成此实验室挑战赛,您展示了在利用 Gemini API 生成文本、创建函数调用和描述视频内容方面的能力。您的操作确保了这些功能在部署到生产环境之前可以达到预期标准。太棒了!
请参阅以下资源,详细了解 Gemini:
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
本手册的最后更新时间:2025 年 7 月 11 日
本实验的最后测试时间:2025 年 7 月 11 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验