2025 年 Google Cloud Next 大会 navigate_next 使用 Vertex AI 构建 DIY 多模态问答系统

访问 700 多个实验和课程

使用 Vertex AI 构建 DIY 多模态问答系统

实验 1 小时 30 分钟 universal_currency_alt 5 个积分 show_chart 中级

info 此实验可能会提供 AI 工具来支持您学习。

GSP1279
概览
目标
设置和要求
任务 1. 在 Vertex AI Workbench 中打开笔记本
任务 2. 设置笔记本
任务 3. 构建包含文本和图片的文档的元数据
任务 4. 文字搜索
任务 5. 图像搜索
任务 6. 使用检索增强生成 (mRAG) 构建多模态问答系统
恭喜！

访问 700 多个实验和课程

GSP1279

Google Cloud 自学实验的徽标

概览

本实验将指导您使用 Google 的 Vertex AI 和强大的 Gemini 模型系列从头开始构建多模态问答系统。通过自主构建系统，而不依赖预构建的工具或库，您将深入了解此类系统的工作原理。这种实操体验可以帮助您了解相关流程，并掌握定制和优化问答系统所需的知识。您还将探索多模态检索增强生成 (RAG) 相较于传统文本 RAG 的优势，了解如何通过视觉信息来增强知识获取和推理能力。

前提条件

在开始本实验之前，您应该先熟悉：

Python 编程基础知识。
API 的一般性概念。
在 Vertex AI Workbench 上的 Jupyter 笔记本中运行 Python 代码

目标

在本实验中，您将学习如何使用多模态检索增强生成 (RAG) 来构建文档搜索引擎：

提取并存储包含文本和图片的文档的元数据，并生成文档嵌入
通过文本查询来搜索元数据，以查找类似的文本或图片
通过图片查询来搜索元数据，以查找类似的图片
使用文本查询作为输入进行搜索，以获得符合上下文且包含文本和图片的答案

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。为此，我们会向您提供新的临时凭据，您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式（推荐）或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号，则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格，其中包含以下各项：
- “打开 Google Cloud 控制台”按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息（如果需要）
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示“登录”页面。

提示：将这些标签页安排在不同的窗口中，并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
重要提示：您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。注意：在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
继续在后续页面中点击以完成相应操作：
- 接受条款及条件。
- 由于这是临时账号，请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中打开 Google Cloud 控制台。

注意：如需访问 Google Cloud 产品和服务，请点击导航菜单，或在搜索字段中输入服务或产品的名称。 “导航菜单”图标和“搜索”字段

任务 1. 在 Vertex AI Workbench 中打开笔记本

在 Google Cloud 控制台的导航菜单 () 中依次点击 Vertex AI > Workbench。
找到实例，然后点击打开 JupyterLab 按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

注意：如果您在 JupyterLab 中没有看到笔记本，请按照以下额外步骤重置实例：

1. 关闭 JupyterLab 的浏览器标签页，然后返回 Workbench 首页。

2. 选中实例名称旁边的复选框，然后点击重置。

3. 打开 JupyterLab 按钮重新启用后，请等待一分钟，然后点击打开 JupyterLab。

任务 2. 设置笔记本

打开文件。
在选择内核对话框中，从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
- 对于项目 ID，请使用；对于位置，使用。

注意：您可以跳过任何标为“仅限 Colab”的笔记本单元。如有笔记本单元在执行时遇到 429 响应，请等待 1 分钟，然后再次运行该单元以继续操作。

点击检查我的进度以验证是否完成了以下目标：导入库并设置笔记本

任务 3. 构建包含文本和图片的文档的元数据

在本部分，您将导入辅助函数来构建元数据，从源文档加载预先计算的文本和图片元数据，并检查处理后的文本和图片数据。

运行笔记本的构建包含文本和图片的文档的元数据部分。

点击检查我的进度以验证是否完成了以下目标：导入辅助函数以构建元数据

加载预先计算的文本和图片元数据

检查处理后的文本和图片数据

任务 4. 文字搜索

在本部分，您将使用 Gemini 模型执行简单问题搜索，验证文本嵌入技术能否实现文本搜索应答。您还将使用 Gemini 模型的多模态功能来搜索与文本查询类似的图片。

运行笔记本的文本搜索部分。

点击检查我的进度以验证是否完成了以下目标：文本搜索

任务 5. 图像搜索

假设您想要搜索图片，不过所用的方法并不是输入字词，而是提供一张实际图片作为搜索线索。这就像使用迷你地图而不是文字地址进行搜索。等同于用另一种方式发出“展示更多类似内容”的请求。替代输入“Gemini 2.0 长上下文的各种示例”，直接展示图片，并发送指令“查找更多类似图片”

在本部分，您只会在一个文档中查找展示 Gemini 各项功能的相似图片。不过，您可以扩展此设计模式，以跨多个文档进行匹配（查找相关图片）。

运行笔记本的图像搜索部分。

点击检查我的进度以验证是否完成了以下目标：图像搜索

任务 6. 使用检索增强生成 (mRAG) 构建多模态问答系统

在最后一个任务中，您将把所有内容整合在一起，实现多模态 RAG。实现多模态 RAG 时，用户需要提供与文档中图片和文本信息相关的文本查询。使用文本搜索方法从文档页面检索与查询类似的文本块。同时，图像搜索会识别出描述与查询匹配的图片。

相关文本和图片组合在一起，作为 Gemini 的上下文。Gemini 会根据查询生成答案，并可能会引用特定指令。最终通过引用标记注明生成回答所用的图文来源。

运行笔记本的使用检索增强生成 (mRAG) 构建多模态问答系统部分。

点击检查我的进度以验证是否完成了以下目标：使用检索增强生成 (mRAG) 构建多模态问答系统

恭喜！

恭喜！在本实验中，您学习了如何使用 Vertex AI 中的 Gemini API 构建多模态问答系统。您构建了一个文档搜索引擎，该引擎可以使用文本和图片查询来搜索文本和图片。您还构建了一个多模态问答系统，该系统可以使用文本和图片来回答问题。

后续步骤/了解详情

请参阅以下资源，详细了解 Gemini：

Gemini 概览
有关 Vertex AI 上生成式 AI 的文档
YouTube 上有关生成式 AI 的视频
探索 Vertex AI 实战宝典，了解精心挑选的生成式 AI 笔记，还可以在笔记本库中搜索内容。
探索 Google Cloud 生成式 AI 仓库中的其他笔记本和示例。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间：2025 年 7 月 11 日

本实验的最后测试时间：2025 年 7 月 11 日

使用 Vertex AI 构建 DIY 多模态问答系统

GSP1279

概览

前提条件

目标

设置和要求

点击“开始实验”按钮前的注意事项

如何开始实验并登录 Google Cloud 控制台

任务 1. 在 Vertex AI Workbench 中打开笔记本

任务 2. 设置笔记本

任务 3. 构建包含文本和图片的文档的元数据

任务 4. 文字搜索

任务 5. 图像搜索

任务 6. 使用检索增强生成 (mRAG) 构建多模态问答系统

恭喜！

后续步骤/了解详情

Google Cloud 培训和认证

准备工作

使用无痕浏览模式

登录控制台

使用无痕浏览模式运行实验