提升 Gemini 模型的能力

课程 · 7 个小时 15 分钟

< 1%

完成

访问 700 多个实验和课程

Gemini 2.0 Flash 简介

实验 45 分钟 universal_currency_alt 1 个积分 show_chart 入门级

info 此实验可能会提供 AI 工具来支持您学习。

GSP1290
概览
目标
设置和要求
任务 1. 在 Vertex AI Workbench 中打开笔记本
任务 2. 设置笔记本
任务 3. 根据文本提示生成文本
任务 4. 配置模型参数
任务 5. 发送多模态提示
任务 6. 控制生成的输出并管理 token
任务 7. 将 Google 搜索作为工具（接地）
任务 8. 利用函数调用和代码执行功能
恭喜！

访问 700 多个实验和课程

GSP1290

概览

本实验将为您介绍 Gemini 2.0 Flash，这是一款由 Google DeepMind 打造的功能强大的全新多模态 AI 模型，可通过 Vertex AI 中的 Gemini API 使用。您将探索这款模型在速度、性能和质量方面的显著提升，同时学习如何利用其功能来完成文本和代码生成、多模态数据处理以及函数调用等任务。本实验还会介绍一些高级功能，例如异步方法、系统指令、受控生成、安全设置、依托 Google 搜索进行接地以及统计 token 数量。

Gemini

Gemini 是 Google DeepMind 开发的一系列强大的生成式 AI 模型，能够理解和生成各种形式的内容，包括文本、代码、图片、音频和视频。

Vertex AI 中的 Gemini API

Vertex AI 中的 Gemini API 提供了与各 Gemini 模型交互的统一接口。通过 Gemini API，开发者可以轻松将这些强大的 AI 功能集成到他们的应用中。如需了解最新版本的最新详细信息和具体功能，请参阅官方 Gemini 文档。

Gemini 模型

Gemini Pro：专为复杂的推理任务而设计，包括：
- 分析和总结大量信息。
- 复杂的跨模态推理（跨文本、代码、图片等）。
- 有效解决复杂代码库的问题。
Gemini Flash：针对速度和效率进行了优化，具有以下特点和功能：
- 亚秒级响应时间和高吞吐量。
- 成本低、效率高，适用于各种任务。
- 增强的多模态功能，包括改进的空间理解、新的输出模态（文本、音频、图片）以及原生工具使用体验（Google 搜索、代码执行和第三方功能）。

前提条件

在开始本实验之前，您应该先熟悉：

Python 编程基础知识。
API 的一般性概念。
在 Vertex AI Workbench 上的 Jupyter 笔记本中运行 Python 代码

目标

在本实验中，您将学习如何使用 Gemini 2.0 Flash 执行以下操作：

生成文本和代码：生成各种形式的文本，包括流式传输输出、进行多轮对话，以及编写和执行代码。
配置和控制模型行为：配置模型参数、设置系统指令、应用安全过滤器，以及利用受控生成技术实现个性化的模型输出。
处理多模态数据：处理多种数据类型，包括文本、音频、代码、文档、图片和视频。
与模型灵活交互：采用同步和异步交互方法，满足各种应用需求。
依托 Google 搜索对模型回答进行接地：依托 Google 搜索中的真实数据对模型回答进行接地，提高模型回答的准确率和时效性。
利用函数调用和管理 token：实现自动和手动函数调用，以及统计 token 数量以跟踪使用情况。

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的，并且您无法暂停实验。计时器在您点击开始实验后即开始计时，显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动，免受模拟或演示环境的局限。为此，我们会向您提供新的临时凭据，您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验，您需要：

能够使用标准的互联网浏览器（建议使用 Chrome 浏览器）。

注意：请使用无痕模式（推荐）或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突，这种冲突可能导致您的个人账号产生额外费用。

完成实验的时间 - 请注意，实验开始后无法暂停。

注意：请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号，则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

点击开始实验按钮。如果该实验需要付费，系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格，其中包含以下各项：
- “打开 Google Cloud 控制台”按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息（如果需要）
点击打开 Google Cloud 控制台（如果您使用的是 Chrome 浏览器，请右键点击并选择在无痕式窗口中打开链接）。

该实验会启动资源并打开另一个标签页，显示“登录”页面。

提示：将这些标签页安排在不同的窗口中，并排显示。
注意：如果您看见选择账号对话框，请点击使用其他账号。
如有必要，请复制下方的用户名，然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码，然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
重要提示：您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。注意：在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
继续在后续页面中点击以完成相应操作：
- 接受条款及条件。
- 由于这是临时账号，请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。

片刻之后，系统会在此标签页中打开 Google Cloud 控制台。

注意：如需访问 Google Cloud 产品和服务，请点击导航菜单，或在搜索字段中输入服务或产品的名称。

任务 1. 在 Vertex AI Workbench 中打开笔记本

在 Google Cloud 控制台的导航菜单 () 中依次点击 Vertex AI > Workbench。
找到实例，然后点击打开 JupyterLab 按钮。

Workbench 实例的 JupyterLab 界面会在新浏览器标签页中打开。

注意：如果您在 JupyterLab 中没有看到笔记本，请按照以下额外步骤重置实例：

1. 关闭 JupyterLab 的浏览器标签页，然后返回 Workbench 首页。

2. 选中实例名称旁边的复选框，然后点击重置。

3. 打开 JupyterLab 按钮重新启用后，请等待一分钟，然后点击打开 JupyterLab。

任务 2. 设置笔记本

打开文件。
在选择内核对话框中，从可用内核列表中选择 Python 3。
运行笔记本的开始使用和导入库部分。
- 对于项目 ID，请使用；对于位置，使用。

注意：您可以跳过任何标为“仅限 Colab”的笔记本单元。如有笔记本单元在执行时遇到 429 响应，请等待 1 分钟，然后再次运行该单元以继续操作。

点击检查我的进度以验证是否完成了以下目标：设置笔记本。

任务 3. 根据文本提示生成文本

在此任务中，您将使用 Gemini 2.0 Flash 模型根据文本提示生成文本。

运行笔记本的加载 Gemini 2.0 Flash 模型部分。
运行笔记本的根据文本提示生成文本部分。尝试一些示例提示，看看模型会如何回答。

生成内容流

默认情况下，模型会在完成整个生成过程后返回回答。您也可以使用 generate_content_stream 方法，在生成回答的同时对其流式传输，这样模型便会在生成一部分回答后立即返回这部分回答。

运行笔记本的生成内容流部分。

开始多轮聊天

Gemini API 支持多轮自由对话，可实现多轮来回交互。

对话上下文会在消息之间保留。

运行笔记本的开始多轮聊天部分。

发送异步请求

client.aio 公开了 client 上提供的所有类似的异步方法。

例如，client.aio.models.generate_content 是 client.models.generate_content 的异步版本。

运行笔记本的发送异步请求部分。

点击检查我的进度以验证是否完成了以下目标：根据文本提示生成文本。

任务 4. 配置模型参数

在此任务中，您将学习如何配置模型参数以微调模型输出。通过调整这些参数，您可以控制所生成文本的创意、长度和安全性等方面。

您可以在发送给模型的每次调用中包含参数值，以控制模型如何生成回答。对于不同的参数值，模型会生成不同的结果。您可以尝试使用不同的模型参数，看看结果会如何变化。

详细了解如何尝试使用参数值。
查看 Gemini API 参数的完整列表。

运行笔记本的配置模型参数部分。

设置系统指令

系统指令可用于引导模型的行为。通过设置系统指令，您可以为模型提供更多背景信息，以便其理解任务、提供更具个性化的回答，并在与用户互动的过程中遵循相关准则。

运行笔记本的设置系统指令部分。

安全过滤器

Gemini API 提供了安全过滤器，您可以在多个过滤器类别中进行调整，以限制或允许某些类型的内容。您可以使用这些过滤器，针对您的应用场景进行适当的调整。如需了解详情，请参阅配置安全过滤器页面。

当您向 Gemini 发出请求时，系统会对内容进行分析并为其进行安全评级。您可以输出模型的回答，以检查所生成内容的安全评级。安全设置默认为 OFF，默认屏蔽阈值为 BLOCK_NONE。

您可以使用 safety_settings 来调整向 API 发出的每个请求的安全设置。此示例演示了如何将所有类别的屏蔽阈值设置为 BLOCK_LOW_AND_ABOVE：

运行笔记本的安全过滤器部分。

点击检查我的进度以验证是否完成了以下目标：配置模型参数。

任务 5. 发送多模态提示

Gemini 是一种支持多模态提示的多模态模型。

您可以包含各种来源的以下任何一种数据类型。以下是更新后的 HTML 表，其中“音频”部分的 MIME 类型已扩展：

数据类型	来源	MIME 类型
文本	内嵌、本地文件、常规网址、Google Cloud Storage	`text/plain`
代码	内嵌、本地文件、常规网址、Google Cloud Storage	`text/plain`
文档	本地文件、常规网址、Google Cloud Storage	`application/pdf`
图片	本地文件、常规网址、Google Cloud Storage	`image/jpeg` `image/png` `image/webp`
音频	本地文件、常规网址、Google Cloud Storage	`audio/aac` `audio/flac` `audio/mp3` `audio/m4a` `audio/mpeg` `audio/mpga` `audio/mp4` `audio/opus` `audio/pcm` `audio/wav` `audio/webm`
视频	本地文件、常规网址、Google Cloud Storage、YouTube	`video/mp4` `video/mpeg` `video/x-flv` `video/quicktime` `video/mpegps` `video/mpg` `video/webm` `video/wmv` `video/3gpp`

在此任务中，您将向模型发送不同类型的多模态提示，将文本与其他数据类型（如图片、音频和视频）结合起来。

运行笔记本的发送本地图片部分。
运行笔记本的从 Google Cloud Storage 发送文档部分。
运行笔记本的通过常规网址发送音频部分。
运行笔记本的通过 YouTube 网址发送视频部分。

点击检查我的进度以验证是否完成了以下目标：发送多模态提示。

任务 6. 控制生成的输出并管理 token

通过受控生成功能，您可以定义回答架构，以指定模型输出的结构、字段名称以及每个字段的预期数据类型。回答架构在 config 的 response_schema 参数中指定，模型输出将严格遵循该架构。

您可以将架构作为 Pydantic 模型或 JSON 字符串提供，模型将以 JSON 或枚举形式进行回答，具体取决于 response_mime_type 中设置的值。在此任务中，您将探索用于控制模型输出和管理 token 使用情况的技术。

在前一个任务中，您学习了如何配置参数，此任务将在此基础上介绍如何定义回答架构，以便更好地控制模型的输出格式。

运行笔记本的控制生成的输出部分。

统计并计算 token 数量

您可以使用 count_tokens() 方法计算输入 token 的数量，然后再向 Gemini API 发送请求。如需了解详情，请参阅列出并统计 token 数量。

运行笔记本的统计并计算 token 数量部分。

点击检查我的进度以验证是否完成了以下目标：控制生成的输出并管理 token。

任务 7. 将 Google 搜索作为工具（接地）

接地可以让您将真实数据与 Gemini 模型关联起来。

通过依托 Google 搜索结果对模型回答进行接地，模型可以在运行时访问超出其训练数据范围的信息，从而生成更准确、更相关且时效性更强的回答。

通过依托 Google 搜索进行接地，您可以提高模型回答的准确率和时效性。从 Gemini 2.0 开始，Google 搜索可作为工具使用。这意味着模型可以决定何时使用 Google 搜索。

Google 搜索

您可以添加 tools 关键字参数，并将 Tool 指定为 GoogleSearch，以指示 Gemini 先根据提示执行 Google 搜索，然后再根据网页搜索结果来构建回答。

动态检索功能可让您设置一个阈值，以确定何时对模型回答进行接地。当提示不需要依托 Google 搜索进行接地来获得回答，并且支持的模型能够基于自身知识在不进行接地的情况下提供回答时，就可以利用这项功能。这有助于您更有效地管理延迟时间、回答质量和费用。

运行笔记本的 Google 搜索部分。

点击检查我的进度以验证是否完成了以下目标：将 Google 搜索作为工具（接地）。

任务 8. 利用函数调用和代码执行功能

借助 Gemini 中的函数调用功能，开发者可以在代码中创建函数的说明，然后通过请求将该说明传递给语言模型。您可以提交用于自动函数调用的 Python 函数，系统会运行该函数并以自然语言返回 Gemini 生成的输出。

您还可以提交 OpenAPI 规范，系统会返回与描述相匹配的函数名称，以及用于调用该函数的参数。在此任务中，您将探索函数调用功能，该功能允许模型与外部系统进行交互，您还将执行由模型生成的代码。

运行笔记本的 Python 函数（自动函数调用）部分。
运行笔记本的 OpenAPI 规范（手动函数调用）部分。

代码执行

Gemini API 的代码执行功能可让模型生成和运行 Python 代码，并从结果中迭代学习，直到获得最终输出。利用此代码执行功能，您可以构建可受益于基于代码的推理并生成文本输出的应用。例如，您可以将此项功能用于求解方程式或处理文本方面的应用。

Gemini API 提供代码执行作为工具，类似于函数调用。将代码执行作为工具添加后，模型会决定何时使用它。

运行笔记本的代码执行部分。

点击检查我的进度以验证是否完成了以下目标：利用函数调用和代码执行功能。

恭喜！

恭喜！在本实验中，您获得了通过 Vertex AI 中的 Gemini API 使用先进的 Gemini 2.0 Flash 模型的实操经验。您成功地探索了该模型的多种功能，包括文本和代码生成、多模态数据处理以及高级模型配置。现在，您已经掌握了利用这些强大功能来构建复杂的创新型 AI 应用的知识和技能。您还熟悉了 Gemini 2.0 中引入的新功能，并了解了如何利用新 SDK 在 API 之间进行迁移。

后续步骤/了解详情

请参阅以下资源，详细了解 Gemini：

Gemini 概览
有关 Vertex AI 上生成式 AI 的文档
YouTube 上有关生成式 AI 的视频
探索 Vertex AI 实战宝典，了解精心挑选的生成式 AI 笔记，还可以在笔记本库中搜索内容。
探索 Google Cloud 生成式 AI 仓库中的其他笔记本和示例。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践，可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训，并有点播、直播和虚拟三种方式选择，让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间：2025 年 5 月 5 日

本实验的最后测试时间：2025 年 5 月 5 日

提升 Gemini 模型的能力

Gemini 2.0 Flash 简介

GSP1290

概览

Gemini

Vertex AI 中的 Gemini API

Gemini 模型

前提条件

目标

设置和要求

点击“开始实验”按钮前的注意事项

如何开始实验并登录 Google Cloud 控制台

任务 1. 在 Vertex AI Workbench 中打开笔记本

任务 2. 设置笔记本

任务 3. 根据文本提示生成文本

生成内容流

开始多轮聊天

发送异步请求

任务 4. 配置模型参数

设置系统指令

安全过滤器

任务 5. 发送多模态提示

任务 6. 控制生成的输出并管理 token

统计并计算 token 数量

任务 7. 将 Google 搜索作为工具（接地）

Google 搜索

任务 8. 利用函数调用和代码执行功能

代码执行

恭喜！

后续步骤/了解详情

Google Cloud 培训和认证

准备工作

使用无痕浏览模式

登录控制台

使用无痕浏览模式运行实验