
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create the connection resource
/ 20
Set up access to a Cloud Storage data lake
/ 30
Create the BigLake table
/ 20
Create the external table
/ 10
Update external table to Biglake table
/ 20
BigLake 是一个统一存储引擎,通过为多云端存储和开放格式提供一致、精细的访问权限控制,可简化数据仓库和数据湖的数据访问。
BigLake 将 BigQuery 的精细行级和列级安全性扩展到数据驻留对象存储(例如 Amazon S3、Azure Data Lake Storage Gen2 和 Google Cloud Storage)上的表。通过委托访问权限,BigLake 将对表的访问权限与对底层云存储数据的访问权限分离开来。此功能可帮助您安全地向组织中的用户和流水线授予行级和列级访问权限,而不必向他们提供对表的完整访问权限。
创建 BigLake 表后,您可以像查询其他 BigQuery 表一样进行查询。BigQuery 会强制执行行级和列级访问权限控制,并且每个用户只能看到他们有权查看的数据切片。系统会通过 BigQuery API 对所有数据访问强制执行治理政策。例如,BigQuery Storage API 允许用户使用开源查询引擎(如 Apache Spark)访问已获得授权的数据,如下图所示:
在本实验中,您将执行以下操作:
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
您也可以在“实验详细信息”窗格中找到“用户名”。
点击下一步。
复制下面的密码,然后将其粘贴到欢迎对话框中。
您也可以在“实验详细信息”窗格中找到“密码”。
点击下一步。
继续在后续页面中点击以完成相应操作:
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
Cloud Shell 是一种装有开发者工具的虚拟机。它提供了一个永久性的 5GB 主目录,并且在 Google Cloud 上运行。Cloud Shell 提供可用于访问您的 Google Cloud 资源的命令行工具。
点击 Google Cloud 控制台顶部的激活 Cloud Shell 。
在弹出的窗口中执行以下操作:
如果您连接成功,即表示您已通过身份验证,且项目 ID 会被设为您的 Project_ID
gcloud
是 Google Cloud 的命令行工具。它已预先安装在 Cloud Shell 上,且支持 Tab 自动补全功能。
输出:
输出:
gcloud
的完整文档,请参阅 gcloud CLI 概览指南。
BigLake 表使用连接资源来访问 Google Cloud Storage 数据。连接资源可以与项目中的单个表或任意一组表相关联。
在导航菜单中,前往 BigQuery > BigQuery Studio。点击完成。
如需创建连接,请点击 + 添加,然后点击与外部数据源的连接。
在“连接类型”列表中,选择 Vertex AI 远程模型、远程函数和 BigLake(Cloud 资源)。
在“连接 ID”字段中,输入 my-connection
。
对于“位置类型”,请选择多区域,然后从下拉菜单中选择美国(美国的多个区域)。
点击创建连接。
如需查看连接信息,请在导航菜单中选择连接。
点击“检查我的进度”以验证是否完成了以下目标:
在本部分,您将向新的连接资源授予对 Cloud Storage 数据湖的只读权限,以便 BigQuery 能够代表用户访问 Cloud Storage 文件。我们建议您向连接资源服务账号授予 Storage Object Viewer IAM 角色,该角色允许服务账号访问 Cloud Storage 存储桶。
在导航菜单中,前往 IAM 和管理 > IAM。
点击 + 授予访问权限。
在新的主账号字段中,输入您之前复制的服务账号 ID。
在选择角色字段中,选择 Cloud Storage,然后选择 Storage Object Viewer。
点击“检查我的进度”以验证是否完成了以下目标:
以下示例使用 CSV 文件格式,但您可以使用 BigLake 支持的任何格式(如限制中所示)。如果您熟悉如何在 BigQuery 中创建表,则此过程类似。唯一的区别是您需要指定关联的 Cloud 资源连接。
如果未提供架构且服务账号未在上一步被授予对存储桶的访问权限,则此步骤将失败并显示访问被拒绝消息。
返回到 BigQuery > Studio。
点击项目名称旁边的三点状图标,然后选择创建数据集。
对于数据集 ID,使用 demo_dataset
。
对于“位置类型”,请选择多区域,然后从下拉菜单中选择美国(美国的多个区域)。
将其余字段保留默认值,然后点击创建数据集。
现在您已经创建了一个数据集,下面就可以将 Cloud Storage 中的现有数据集复制到 BigQuery。
点击浏览来选择数据集。找到名为 customer.csv
,然后点击选择。
在目标位置部分,验证已选中了实验项目,并且您使用了 demo_dataset。
对于表名,请使用 biglake_table
。
将表类型设置为外部表。
选中使用 Cloud 资源连接来创建 BigLake 表旁边的复选框。
验证已选择了连接 ID us.my-connection。您的配置应如下所示:
点击“检查我的进度”以验证是否完成了以下目标:
现在您已经创建了 BigLake 表,下面就可以使用任何 BigQuery 客户端来提交查询。
在 biglake_table 预览工具栏中,点击查询。
运行以下命令,通过 BigQuery 编辑器来查询 BigLake 表:
点击运行。
验证您可以查看生成的表中的所有列和数据。
创建 BigLake 表后,可采用与管理 BigQuery 表类似的方式进行管理。如需为 BigLake 表创建访问权限控制政策,您首先需要在 BigQuery 中创建政策标记分类。然后,将政策标记应用于敏感行或列。在本部分,您将创建一个列级政策。如需了解如何设置行级安全性,请参阅行级安全性指南。
为了满足上述目的,本实验中已为您创建了一个名为
现在,您将使用所创建的政策标记来限制对 BigQuery 表中某些列的访问。在本例中,您将限制对地址、邮政编码和电话号码等敏感信息的访问。
在导航菜单中,前往 BigQuery > Studio。
依次选择 demo-dataset > biglake_table,然后点击该表来打开表架构页。
点击修改架构。
选中 address、postal_code 和 phone 字段旁边的复选框。
点击添加政策标记。
点击
点击选择。
现在,部分列应该已附加了政策标记。
点击保存。
验证您的表架构现在如下所示。
为 biglake_table 打开查询编辑器。
运行以下命令,通过 BigQuery 编辑器来查询 BigLake 表:
点击运行。
您应该会收到访问被拒绝的错误消息:
此查询应该会正常运行,不会出现任何问题,并会返回您有权访问的列。本例表明,通过 BigQuery 强制执行的列级安全性同样也适用于 BigLake 表。
您可以将现有表关联到 Cloud 资源连接,从而将表升级为 BigLake 表。如需查看完整的标志和参数列表,请参阅 bq update
和 bq mkdef
。
点击 demo_dataset 旁边的三点状图标,然后选择创建表。
在“来源”部分,为基于以下数据创建表选择 Google Cloud Storage。
点击浏览来选择数据集。找到名为 invoice.csv
,然后点击选择。
在目标位置部分,验证已选中了实验项目,并且您使用了 demo_dataset。
对于表名,请使用 external_table
。
将表类型设置为外部表。
点击“检查我的进度”以验证是否完成了以下目标:
点击“检查我的进度”以验证是否完成了以下目标:
在导航菜单中,前往 BigQuery > Studio。
选择 demo-dataset > 双击 external_table。
打开详情标签页。
在“外部数据配置”部分,验证表现在使用了正确的连接 ID。
太棒了!您已将现有的外部表与 Cloud 资源连接相关联,成功将其升级为 BigLake 表。
在本实验中,您创建了连接资源,设置了对 Cloud Storage 数据湖的访问权限,并在此基础上创建了一个 BigLake 表。之后,您通过 BigQuery 查询了 BigLake 表,并设置了列级访问权限控制政策。最后,您使用连接资源将现有的外部表更新为 BigLake 表。
请务必参阅以下文档,以便进一步练习使用 BigLake:
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
本手册的最后更新时间:2025 年 3 月 21 日
本实验的最后测试时间:2025 年 3 月 21 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验