arrow_back

使用多模态 Gemini 和多模态 RAG 检查富文档:实验室挑战赛

登录 加入
访问 700 多个实验和课程

使用多模态 Gemini 和多模态 RAG 检查富文档:实验室挑战赛

实验 1 小时 30 分钟 universal_currency_alt 5 个积分 show_chart 中级
info 此实验可能会提供 AI 工具来支持您学习。
访问 700 多个实验和课程

GSP520

Google Cloud 自学实验的徽标

概览

在实验室挑战赛中,我们会为您提供一个场景和一系列任务。您将使用从课程的各个实验中学到的技能自行确定如何完成这些任务,而不是按照分步说明进行操作。自动评分系统(显示在本页面中)会提供有关您是否已正确完成任务的反馈。

在您参加实验室挑战赛期间,我们不会再教授新的 Google Cloud 概念知识。您需要拓展所学的技能,例如通过更改默认值和查看并研究错误消息来更正您自己所犯的错误。

要想获得满分,您必须在该时间段内成功完成所有任务!

我们建议已经报名参加使用多模态 Gemini 和多模态 RAG 检查富文档技能徽章课程的学员参加此实验室挑战赛。准备好接受挑战了吗?

测试的主题

  • 将多模态与 Gemini 配合使用,从而使用多模态提示从文本数据和视觉数据中提取信息、生成视频说明、检索视频中不包含的额外信息
  • 将多模态检索增强生成 (RAG) 与 Gemini 配合使用,以构建包含文本和图片的文档的元数据、获取所有相关文本块并输出引用

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

在 Vertex AI Workbench 中打开笔记本

  1. 在 Google Cloud 控制台的导航菜单 (“导航菜单”图标) 中依次点击 Vertex AI > Workbench

  2. 找到 实例,然后点击打开 JupyterLab 按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

注意:如果您在 JupyterLab 中没有看到笔记本,请按照以下额外步骤重置实例:

1. 关闭 JupyterLab 的浏览器标签页,然后返回 Workbench 首页。

2. 选中实例名称旁边的复选框,然后点击重置

3. 打开 JupyterLab 按钮重新启用后,请等待一分钟,然后点击打开 JupyterLab

设置笔记本

  1. 点击 文件。

  2. 选择内核对话框中,从可用内核列表中选择 Python 3

  3. 运行笔记本的设置和要求部分中的 4 个单元(运行完毕后再开始执行任务 1)。

  4. 使用以下信息为您的项目初始化 Gen AI SDK for Python:

    • 项目 ID 部分中,输入
    • 位置部分中,输入

挑战场景

您是一家传媒公司的营销活动协调员,与营销经理密切合作,共同规划、执行和评估营销活动,以达成销售目标。最近,您与 Google 签下了一份令人兴奋的新合同。作为营销活动协调员,您迫切希望探索相关材料,从而尽快自行熟悉 Google 品牌和 Google 品牌身份。因此,您计划利用 Gemini 的创新功能查看 Google 的品牌指南、既往营销活动、产品广告、客户赞誉和财务报告,以便更高效地获得有关 Google 的深度分析洞见。

在本挑战中,您首先要将多模态与 Gemini 配合使用,从而使用多模态提示从文本数据和视觉数据中提取信息、生成视频说明、检索视频中不包含的额外信息。此外,您还要将多模态检索增强生成 (RAG) 与 Gemini 配合使用,以构建包含文本和图片的文档的元数据、获取所有相关文本块并输出引用。

任务 1. 使用 Gemini 生成多模态分析洞见

在此任务中,您要利用 Gemini(一个支持多模态提示的多模态模型)自行熟悉 Google 品牌和 Google 品牌身份。您的提示请求应包含文本、图片和视频,并且应获取文本或代码形式的回答。

为了完成此任务,请按照笔记本中指定部分中的说明操作。

注意:请先保存笔记本脚本,然后再点击每个任务的检查我的进度按钮。
  1. 如需使用多模态模型研究多张图片,请按照根据多张图片进行推理部分中的说明操作。

如需验证是否已完成以下目标,请点击检查我的进度 根据多张图片进行推理。

  1. 如需使用多模态模型比较图片,请按照图片之间的相似/不同之处部分中的说明操作。

如需验证是否已完成以下目标,请点击检查我的进度 图片之间的相似/不同之处。

  1. 如需使用多模态模型生成视频说明,请按照生成视频说明部分中的说明操作。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
  2. 如需使用多模态模型提取整个视频中的对象标签,请按照提取视频中对象的标签部分中的说明操作。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
  3. 如需使用多模态模型进一步探索视频,请按照提出更多关于视频的问题部分中的说明操作。

    Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
  4. 如需使用多模态模型从图片中获取更多信息,请按照检索视频中不包含的额外信息部分中的说明操作。

如需验证是否已完成以下目标,请点击检查我的进度 生成视频说明并检索视频中不包含的额外信息。

任务 2. 使用多模态检索增强生成 (RAG) 检索和整合知识

为了完成此任务,请按照笔记本中指定部分中的说明操作。

可用于任务 2 的数据和辅助函数:

  • Google 产品的“服务条款”文档,界定了 Google 与其用户之间的关系。其中涵盖了 Google 对用户的义务、使用相关服务的规则、与内容相关的知识产权,以及解决争端或不同意见的程序。此示例文档仅包含文本内容。

  • Google-10K 的修改版,这份文档提供了 Google 公司财务业绩、经营活动、管理和风险系数的综合概览。原始文档较为庞大,因此您在本实验中将使用仅有 14 页的修改版,并且其内容拆分为两部分:第 1 部分第 2 部分。虽然这份示例文档经过截断处理,但其中仍然包含文本和图片,例如表格、图表和图形。

您还要从下面选择相应的辅助函数,以完成接下来的任务。如需详细了解这些函数,请参阅 GitHub

  • 对于“检查经过处理的文本元数据”函数:

    • text:来自页面的原始文本。
    • text_embedding_page:来自页面的原始文本的嵌入。
    • chunk_text:将原始文本拆分成较小的文本块。
    • chunk_number:各文本块的索引。
    • text_embedding_chunk:各文本块的嵌入。
  • 对于“检查经过处理的图片元数据”函数:

    • img_desc:Gemini 生成的文本形式的图片说明。
    • mm_embedding_from_text_desc_and_img:合并在一起的图片嵌入和图片说明,捕捉了视觉信息和文本信息。
    • mm_embedding_from_img_only:不带说明的图片嵌入,用于通过基于说明的分析来执行比较。
    • text_embedding_from_image_description:所生成说明的单独文本嵌入,支持文本分析和比较。
  • 对于“导入辅助函数以实现 RAG”函数:

    • get_similar_text_from_query():给定文本查询,使用余弦相似度算法查找文档中相关的文本。它使用来自元数据的文本嵌入执行计算。结果可按最高得分、页面/文本块编号或嵌入大小进行过滤。
    • print_text_to_text_citation():输出 get_similar_text_from_query() 函数检索到的文本来源(引用)及详细信息。
    • get_similar_image_from_query():给定图片路径或一张图片,查找文档中相关的图片。它使用来自元数据的图片嵌入。
    • print_text_to_image_citation():输出“get_similar_image_from_query()”函数检索到的图片来源(引用)及详细信息。
    • get_gemini_response():与 Gemini 模型交互,根据文本和图片输入的组合回答问题。
    • display_images():显示一系列图片,这些图片以路径或 PIL 图片对象的形式提供。
  1. 如需导入和运行辅助函数,请按照构建包含文本和图片的文档的元数据部分中的说明操作。

  2. 如需使用提供的变量,请按照创建用户查询部分中的说明操作。

  3. 如需根据查询检索相关文本块,请按照获取所有相关文本块部分中的说明操作。

  4. 如需整理文本块,请按照创建 context_text 中的说明操作。

  5. 如需将上下文传递给 Gemini 并生成回复,请按照向 Gemini 传递上下文中的说明操作。

如需验证是否已完成以下目标,请点击检查我的进度 使用多模态检索增强生成 (RAG) 检索和整合知识。

恭喜!

通过完成此实验室挑战赛,您展示了在利用 Gemini API 生成文本、创建函数调用和描述视频内容方面的能力。您的操作确保了这些功能在部署到生产环境之前可以达到预期标准。太棒了!

“使用多模态 Gemini 和多模态 RAG 检查富文档”徽章

后续步骤/了解详情

请参阅以下资源,详细了解 Gemini:

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间:2025 年 7 月 11 日

本实验的最后测试时间:2025 年 7 月 11 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

请使用无痕模式或无痕式浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。