GSP1144

概览
Dataplex 是一种智能数据结构脉络,能够帮助组织跨数据湖、数据仓库和数据集市集中发现、管理、监控和治理其数据,从而为大规模分析提供支撑。具体而言,您可以使用 Dataplex 构建数据网格架构。这是一种将数据所有权下放给领域数据所有者的组织和技术方法。
Dataplex 管理数据的方式无需移动或复制数据。当您添加新的数据资产时,Dataplex 会采集结构化和非结构化数据的元数据,并自动将所有元数据注册到安全统一的 Metastore 中。之后,您便可以通过 Data Catalog 和 BigQuery 等 Google Cloud 服务来评估数据和元数据。
在本实验中,您将学习如何使用命令行在 Dataplex 中创建和移除数据湖、区域和资产,以着手构建自己的数据网格。
您将执行的操作
- 启用 Dataplex API
- 创建数据湖
- 向数据湖添加区域
- 附加和分离资产
- 删除区域和数据湖
设置和要求
点击“开始实验”按钮前的注意事项
请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。
此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。
为完成此实验,您需要:
- 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。
如何开始实验并登录 Google Cloud 控制台
-
点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:
- “打开 Google Cloud 控制台”按钮
- 剩余时间
- 进行该实验时必须使用的临时凭据
- 帮助您逐步完成本实验所需的其他信息(如果需要)
-
点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。
该实验会启动资源并打开另一个标签页,显示“登录”页面。
提示:将这些标签页安排在不同的窗口中,并排显示。
注意:如果您看见选择账号对话框,请点击使用其他账号。
-
如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。
{{{user_0.username | "<用户名>"}}}
您也可以在“实验详细信息”窗格中找到“用户名”。
-
点击下一步。
-
复制下面的密码,然后将其粘贴到欢迎对话框中。
{{{user_0.password | "<密码>"}}}
您也可以在“实验详细信息”窗格中找到“密码”。
-
点击下一步。
重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。
注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
-
继续在后续页面中点击以完成相应操作:
- 接受条款及条件。
- 由于这是临时账号,请勿添加账号恢复选项或双重验证。
- 请勿注册免费试用。
片刻之后,系统会在此标签页中打开 Google Cloud 控制台。
注意:如需访问 Google Cloud 产品和服务,请点击导航菜单,或在搜索字段中输入服务或产品的名称。
激活 Cloud Shell
Cloud Shell 是一种装有开发者工具的虚拟机。它提供了一个永久性的 5GB 主目录,并且在 Google Cloud 上运行。Cloud Shell 提供可用于访问您的 Google Cloud 资源的命令行工具。
-
点击 Google Cloud 控制台顶部的激活 Cloud Shell
。
-
在弹出的窗口中执行以下操作:
- 继续完成 Cloud Shell 信息窗口中的设置。
- 授权 Cloud Shell 使用您的凭据进行 Google Cloud API 调用。
如果您连接成功,即表示您已通过身份验证,且项目 ID 会被设为您的 Project_ID 。输出内容中有一行说明了此会话的 Project_ID:
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
是 Google Cloud 的命令行工具。它已预先安装在 Cloud Shell 上,且支持 Tab 自动补全功能。
- (可选)您可以通过此命令列出活跃账号名称:
gcloud auth list
- 点击授权。
输出:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
- (可选)您可以通过此命令列出项目 ID:
gcloud config list project
输出:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
注意:如需查看在 Google Cloud 中使用 gcloud
的完整文档,请参阅 gcloud CLI 概览指南。
启用 Dataplex API 并设置变量
- 在 Cloud Shell 中运行以下命令以启用 Dataplex API。
gcloud services enable \
dataplex.googleapis.com
- 运行以下命令,创建项目 ID 对应的变量:
export PROJECT_ID=$(gcloud config get-value project)
- 运行以下命令,创建区域对应的变量:
export REGION={{{project_0.default_region | "filled in at lab start"}}}
gcloud config set compute/region $REGION
任务 1. 创建数据湖
在 Dataplex 中,数据湖是最高层级的组织域,代表特定的数据领域或业务单元。例如,您可以为组织内的每个部门或数据域创建一个数据湖,以便为特定用户群体整理和提供数据。
在此任务中,您将使用命令行创建一个数据湖,以着手构建数据网格。
- 在 Cloud Shell 中运行以下命令,创建名为 Ecommerce 的新数据湖:
gcloud dataplex lakes create ecommerce \
--location=$REGION \
--display-name="Ecommerce" \
--description="Ecommerce Domain"
数据湖创建过程最长可能需要 3 分钟。
如果您收到错误消息 Status code: 403. Permission 'dataplex.lakes.create' denied
,请等待几分钟,然后重试。在前文“设置”部分启用 Dataplex API 后,相关权限可能需要更长时间才能生效。
最终输出结果应与以下内容类似:
Created [ecommerce] Lake created in [projects/$PROJECT_ID/locations/$REGION].
创建 Dataplex 数据湖
任务 2. 向数据湖添加区域
数据湖创建完成后,就可以向其添加区域了。区域是数据湖的子域,可用于对数据进一步分类。例如,您可以按数据的处理阶段、用途或访问限制来划分数据类别。
区域有两种类型:
- 原始区域包含原始格式的数据(例如,Cloud Storage 存储桶中的文件),这类数据不需要进行严格的类型检查。
- 精选区域包含经过清理、格式处理,可直接用于分析的数据,例如 BigQuery 表。
在此任务中,您将使用命令行创建一个精选区域,用于处理 BigQuery 数据集。
- 在 Cloud Shell 中运行以下命令,创建名为 Orders Curated Zone 的新精选区域,并启用元数据发现功能:
gcloud dataplex zones create orders-curated-zone \
--location=$REGION \
--lake=ecommerce \
--display-name="Orders Curated Zone" \
--resource-location-type=SINGLE_REGION \
--type=CURATED \
--discovery-enabled \
--discovery-schedule="0 * * * *"
区域创建过程最长可能需要 2 分钟。
最终输出结果应与以下内容类似:
Created [orders-curated-zone] Zone created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce].
向数据湖添加区域
任务 3. 将资产附加到区域
Cloud Storage 存储桶或 BigQuery 数据集中存储的数据可以作为资产附加到 Dataplex 数据湖中的区域。
在此任务中,您将使用命令行创建 BigQuery 数据集,然后将该数据集附加到之前创建的区域。
创建 BigQuery 数据集
- 在 Cloud Shell 中运行以下命令,创建名为 orders 的新 BigQuery 数据集:
bq mk --location=$REGION --dataset orders
虽然此数据集目前不含任何表或数据,但您现在可以将其附加到该区域,后续新创建的表和加载的数据将自动纳入到该区域中。
最终输出结果应与以下内容类似:
Dataset '$PROJECT_ID:orders' successfully created.
将 BigQuery 数据集附加到区域
- 在 Cloud Shell 中运行以下命令,将该 BigQuery 数据集作为名为 Orders Curated Data 的资产附加到区域,并启用元数据发现:
gcloud dataplex assets create orders-curated-dataset \
--location=$REGION \
--lake=ecommerce \
--zone=orders-curated-zone \
--display-name="Orders Curated Dataset" \
--resource-type=BIGQUERY_DATASET \
--resource-name=projects/$PROJECT_ID/datasets/orders \
--discovery-enabled
资产创建过程最长可能需要 2 分钟。
最终输出结果应与以下内容类似:
Created [orders-curated-dataset] Asset created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce/zones/orders-curated-zone].
将资产附加到区域
任务 4. 删除资产、区域和数据湖
如要删除数据湖,必须先分离资产,然后再删除区域。
在此任务中,您将使用命令行从区域中分离资产,然后删除区域,最后再删除数据湖。
分离资产
- 在 Cloud Shell 中运行以下命令,将 BigQuery 数据集从区域中分离:
gcloud dataplex assets delete orders-curated-dataset --location=$REGION --zone=orders-curated-zone --lake=ecommerce
如果系统提示您确认,请输入 Y
。
此操作不会删除 BigQuery 数据集中的基础数据,只是让您无法再使用 Dataplex 中的数据湖来访问或发现 BigQuery 数据集。
最终输出结果应与以下内容类似:
Deleted asset [orders-curated-dataset].
删除区域
- 在 Cloud Shell 中运行以下命令删除区域:
gcloud dataplex zones delete orders-curated-zone --location=$REGION --lake=ecommerce
如果系统提示您确认,请输入 Y
。
最终输出结果应与以下内容类似:
Deleted zone [orders-curated-zone].
删除数据湖
- 在 Cloud Shell 中运行以下命令删除数据湖:
gcloud dataplex lakes delete ecommerce --location=$REGION
如果系统提示您确认,请输入 Y
。
最终输出结果应与以下内容类似:
Deleted lake [ecommerce].
删除资产、区域和 Dataplex 数据湖
恭喜!
您使用命令行在 Dataplex 中创建和删除了数据湖、区域和资产。
Google Cloud 培训和认证
…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。
本手册的最后更新时间:2025 年 4 月 23 日
本实验的最后测试时间:2025 年 4 月 23 日
版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。