arrow_back

Dataplex:Qwik Start - 命令行

登录 加入
访问 700 多个实验和课程

Dataplex:Qwik Start - 命令行

实验 30 分钟 universal_currency_alt 1 个积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
访问 700 多个实验和课程

GSP1144

Google Cloud 自学实验的徽标

概览

Dataplex 是一种智能数据结构脉络,能够帮助组织跨数据湖、数据仓库和数据集市集中发现、管理、监控和治理其数据,从而为大规模分析提供支撑。具体而言,您可以使用 Dataplex 构建数据网格架构。这是一种将数据所有权下放给领域数据所有者的组织和技术方法。

Dataplex 管理数据的方式无需移动或复制数据。当您添加新的数据资产时,Dataplex 会采集结构化和非结构化数据的元数据,并自动将所有元数据注册到安全统一的 Metastore 中。之后,您便可以通过 Data Catalog 和 BigQuery 等 Google Cloud 服务来评估数据和元数据。

在本实验中,您将学习如何使用命令行在 Dataplex 中创建和移除数据湖、区域和资产,以着手构建自己的数据网格。

您将执行的操作

  • 启用 Dataplex API
  • 创建数据湖
  • 向数据湖添加区域
  • 附加和分离资产
  • 删除区域和数据湖

设置和要求

点击“开始实验”按钮前的注意事项

请阅读以下说明。实验是计时的,并且您无法暂停实验。计时器在您点击开始实验后即开始计时,显示 Google Cloud 资源可供您使用多长时间。

此实操实验可让您在真实的云环境中开展实验活动,免受模拟或演示环境的局限。为此,我们会向您提供新的临时凭据,您可以在该实验的规定时间内通过此凭据登录和访问 Google Cloud。

为完成此实验,您需要:

  • 能够使用标准的互联网浏览器(建议使用 Chrome 浏览器)。
注意:请使用无痕模式(推荐)或无痕浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。
  • 完成实验的时间 - 请注意,实验开始后无法暂停。
注意:请仅使用学生账号完成本实验。如果您使用其他 Google Cloud 账号,则可能会向该账号收取费用。

如何开始实验并登录 Google Cloud 控制台

  1. 点击开始实验按钮。如果该实验需要付费,系统会打开一个对话框供您选择支付方式。左侧是“实验详细信息”窗格,其中包含以下各项:

    • “打开 Google Cloud 控制台”按钮
    • 剩余时间
    • 进行该实验时必须使用的临时凭据
    • 帮助您逐步完成本实验所需的其他信息(如果需要)
  2. 点击打开 Google Cloud 控制台(如果您使用的是 Chrome 浏览器,请右键点击并选择在无痕式窗口中打开链接)。

    该实验会启动资源并打开另一个标签页,显示“登录”页面。

    提示:将这些标签页安排在不同的窗口中,并排显示。

    注意:如果您看见选择账号对话框,请点击使用其他账号
  3. 如有必要,请复制下方的用户名,然后将其粘贴到登录对话框中。

    {{{user_0.username | "<用户名>"}}}

    您也可以在“实验详细信息”窗格中找到“用户名”。

  4. 点击下一步

  5. 复制下面的密码,然后将其粘贴到欢迎对话框中。

    {{{user_0.password | "<密码>"}}}

    您也可以在“实验详细信息”窗格中找到“密码”。

  6. 点击下一步

    重要提示:您必须使用实验提供的凭据。请勿使用您的 Google Cloud 账号凭据。 注意:在本实验中使用您自己的 Google Cloud 账号可能会产生额外费用。
  7. 继续在后续页面中点击以完成相应操作:

    • 接受条款及条件。
    • 由于这是临时账号,请勿添加账号恢复选项或双重验证。
    • 请勿注册免费试用。

片刻之后,系统会在此标签页中打开 Google Cloud 控制台。

注意:如需访问 Google Cloud 产品和服务,请点击导航菜单,或在搜索字段中输入服务或产品的名称。 “导航菜单”图标和“搜索”字段

激活 Cloud Shell

Cloud Shell 是一种装有开发者工具的虚拟机。它提供了一个永久性的 5GB 主目录,并且在 Google Cloud 上运行。Cloud Shell 提供可用于访问您的 Google Cloud 资源的命令行工具。

  1. 点击 Google Cloud 控制台顶部的激活 Cloud Shell “激活 Cloud Shell”图标

  2. 在弹出的窗口中执行以下操作:

    • 继续完成 Cloud Shell 信息窗口中的设置。
    • 授权 Cloud Shell 使用您的凭据进行 Google Cloud API 调用。

如果您连接成功,即表示您已通过身份验证,且项目 ID 会被设为您的 Project_ID 。输出内容中有一行说明了此会话的 Project_ID

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud 是 Google Cloud 的命令行工具。它已预先安装在 Cloud Shell 上,且支持 Tab 自动补全功能。

  1. (可选)您可以通过此命令列出活跃账号名称:
gcloud auth list
  1. 点击授权

输出:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (可选)您可以通过此命令列出项目 ID:
gcloud config list project

输出:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} 注意:如需查看在 Google Cloud 中使用 gcloud 的完整文档,请参阅 gcloud CLI 概览指南

启用 Dataplex API 并设置变量

  1. 在 Cloud Shell 中运行以下命令以启用 Dataplex API。
gcloud services enable \ dataplex.googleapis.com
  1. 运行以下命令,创建项目 ID 对应的变量:
export PROJECT_ID=$(gcloud config get-value project)
  1. 运行以下命令,创建区域对应的变量:
export REGION={{{project_0.default_region | "filled in at lab start"}}} gcloud config set compute/region $REGION

任务 1. 创建数据湖

在 Dataplex 中,数据湖是最高层级的组织域,代表特定的数据领域或业务单元。例如,您可以为组织内的每个部门或数据域创建一个数据湖,以便为特定用户群体整理和提供数据。

在此任务中,您将使用命令行创建一个数据湖,以着手构建数据网格。

  • 在 Cloud Shell 中运行以下命令,创建名为 Ecommerce 的新数据湖:
gcloud dataplex lakes create ecommerce \ --location=$REGION \ --display-name="Ecommerce" \ --description="Ecommerce Domain"

数据湖创建过程最长可能需要 3 分钟。

如果您收到错误消息 Status code: 403. Permission 'dataplex.lakes.create' denied,请等待几分钟,然后重试。在前文“设置”部分启用 Dataplex API 后,相关权限可能需要更长时间才能生效。

最终输出结果应与以下内容类似:

Created [ecommerce] Lake created in [projects/$PROJECT_ID/locations/$REGION]. 创建 Dataplex 数据湖

任务 2. 向数据湖添加区域

数据湖创建完成后,就可以向其添加区域了。区域是数据湖的子域,可用于对数据进一步分类。例如,您可以按数据的处理阶段、用途或访问限制来划分数据类别。

区域有两种类型:

  • 原始区域包含原始格式的数据(例如,Cloud Storage 存储桶中的文件),这类数据不需要进行严格的类型检查。
  • 精选区域包含经过清理、格式处理,可直接用于分析的数据,例如 BigQuery 表。

在此任务中,您将使用命令行创建一个精选区域,用于处理 BigQuery 数据集。

  • 在 Cloud Shell 中运行以下命令,创建名为 Orders Curated Zone 的新精选区域,并启用元数据发现功能:
gcloud dataplex zones create orders-curated-zone \ --location=$REGION \ --lake=ecommerce \ --display-name="Orders Curated Zone" \ --resource-location-type=SINGLE_REGION \ --type=CURATED \ --discovery-enabled \ --discovery-schedule="0 * * * *"

区域创建过程最长可能需要 2 分钟。

最终输出结果应与以下内容类似:

Created [orders-curated-zone] Zone created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce]. 向数据湖添加区域

任务 3. 将资产附加到区域

Cloud Storage 存储桶或 BigQuery 数据集中存储的数据可以作为资产附加到 Dataplex 数据湖中的区域。

在此任务中,您将使用命令行创建 BigQuery 数据集,然后将该数据集附加到之前创建的区域。

创建 BigQuery 数据集

  • 在 Cloud Shell 中运行以下命令,创建名为 orders 的新 BigQuery 数据集:
bq mk --location=$REGION --dataset orders

虽然此数据集目前不含任何表或数据,但您现在可以将其附加到该区域,后续新创建的表和加载的数据将自动纳入到该区域中。

最终输出结果应与以下内容类似:

Dataset '$PROJECT_ID:orders' successfully created.

将 BigQuery 数据集附加到区域

  • 在 Cloud Shell 中运行以下命令,将该 BigQuery 数据集作为名为 Orders Curated Data 的资产附加到区域,并启用元数据发现:
gcloud dataplex assets create orders-curated-dataset \ --location=$REGION \ --lake=ecommerce \ --zone=orders-curated-zone \ --display-name="Orders Curated Dataset" \ --resource-type=BIGQUERY_DATASET \ --resource-name=projects/$PROJECT_ID/datasets/orders \ --discovery-enabled

资产创建过程最长可能需要 2 分钟。

最终输出结果应与以下内容类似:

Created [orders-curated-dataset] Asset created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce/zones/orders-curated-zone]. 将资产附加到区域

任务 4. 删除资产、区域和数据湖

如要删除数据湖,必须先分离资产,然后再删除区域。

在此任务中,您将使用命令行从区域中分离资产,然后删除区域,最后再删除数据湖。

分离资产

  • 在 Cloud Shell 中运行以下命令,将 BigQuery 数据集从区域中分离:
gcloud dataplex assets delete orders-curated-dataset --location=$REGION --zone=orders-curated-zone --lake=ecommerce

如果系统提示您确认,请输入 Y

此操作不会删除 BigQuery 数据集中的基础数据,只是让您无法再使用 Dataplex 中的数据湖来访问或发现 BigQuery 数据集。

最终输出结果应与以下内容类似:

Deleted asset [orders-curated-dataset].

删除区域

  • 在 Cloud Shell 中运行以下命令删除区域:
gcloud dataplex zones delete orders-curated-zone --location=$REGION --lake=ecommerce

如果系统提示您确认,请输入 Y

最终输出结果应与以下内容类似:

Deleted zone [orders-curated-zone].

删除数据湖

  • 在 Cloud Shell 中运行以下命令删除数据湖:
gcloud dataplex lakes delete ecommerce --location=$REGION

如果系统提示您确认,请输入 Y

最终输出结果应与以下内容类似:

Deleted lake [ecommerce]. 删除资产、区域和 Dataplex 数据湖

恭喜!

您使用命令行在 Dataplex 中创建和删除了数据湖、区域和资产。

Google Cloud 培训和认证

…可帮助您充分利用 Google Cloud 技术。我们的课程会讲解各项技能与最佳实践,可帮助您迅速上手使用并继续学习更深入的知识。我们提供从基础到高级的全方位培训,并有点播、直播和虚拟三种方式选择,让您可以按照自己的日程安排学习时间。各项认证可以帮助您核实并证明您在 Google Cloud 技术方面的技能与专业知识。

本手册的最后更新时间:2025 年 4 月 23 日

本实验的最后测试时间:2025 年 4 月 23 日

版权所有 2025 Google LLC 保留所有权利。Google 和 Google 徽标是 Google LLC 的商标。其他所有公司名和产品名可能是其各自相关公司的商标。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

请使用无痕模式或无痕式浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。