arrow_back

使用 Dataplex 評估資料品質

登录 加入
访问 700 多个实验和课程

使用 Dataplex 評估資料品質

实验 1 小时 30 分钟 universal_currency_alt 1 积分 show_chart 入门级
info 此实验可能会提供 AI 工具来支持您学习。
访问 700 多个实验和课程

GSP1158

Google Cloud 自學實驗室標誌

總覽

Dataplex Universal Catalog 是智慧型的 data fabric,有助於組織集中探索、管理、監控及治理資料湖泊、資料倉儲和資料市集內的資料,以便大規模分析數據。

Dataplex Universal Catalog 有一項重要功能,就是可以對 Dataplex Universal Catalog 資產 (如 BigQuery 資料表和 Cloud Storage 檔案),定義並執行資料品質檢查工作。只要使用 Dataplex 資料品質工作,就能驗證資料產生管道的資料、定期監控資料品質是否符合標準,並根據監管需求製作資料品質報表,將資料品質檢查作業融入日常工作流程。

在本實驗室,您會瞭解使用 Dataplex Universal Catalog 評估資料品質的方法,包括如何建立自訂資料品質規格檔案,並用該檔案對 BigQuery 資料定義並執行資料品質工作。

學習內容

  • 建立 Dataplex Universal Catalog 湖泊、儲存區和資產。
  • 查詢 BigQuery 資料表,檢查資料品質。
  • 建立並上傳資料品質規格檔案。
  • 定義並執行資料品質工作。
  • 查看資料品質工作的結果。

設定和需求

瞭解以下事項後,再點選「Start Lab」按鈕

請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。

您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。

為了順利完成這個實驗室,請先確認:

  • 可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意事項:請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室,這可以防止個人帳戶和學員帳戶之間的衝突,避免個人帳戶產生額外費用。
  • 是時候完成實驗室活動了!別忘了,活動一旦開始將無法暫停。
注意事項:務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶,可能會產生額外費用。

如何開始研究室及登入 Google Cloud 控制台

  1. 點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:

    • 「Open Google Cloud console」按鈕
    • 剩餘時間
    • 必須在這個研究室中使用的臨時憑證
    • 完成這個實驗室所需的其他資訊 (如有)
  2. 點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」

    接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。

    提示:您可以在不同的視窗中並排開啟分頁。

    注意:如果頁面中顯示「選擇帳戶」對話方塊,請點選「使用其他帳戶」
  3. 如有必要,請將下方的 Username 貼到「登入」對話方塊。

    {{{user_0.username | "Username"}}}

    您也可以在「Lab Details」窗格找到 Username。

  4. 點選「下一步」

  5. 複製下方的 Password,並貼到「歡迎使用」對話方塊。

    {{{user_0.password | "Password"}}}

    您也可以在「Lab Details」窗格找到 Password。

  6. 點選「下一步」

    重要事項:請務必使用實驗室提供的憑證,而非自己的 Google Cloud 帳戶憑證。 注意:如果使用自己的 Google Cloud 帳戶來進行這個實驗室,可能會產生額外費用。
  7. 按過後續的所有頁面:

    • 接受條款及細則。
    • 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
    • 請勿申請免費試用。

Google Cloud 控制台稍後會在這個分頁開啟。

注意:如要使用 Google Cloud 產品和服務,請點選「導覽選單」,或在「搜尋」欄位輸入服務或產品名稱。「導覽選單」圖示和搜尋欄位

啟動 Cloud Shell

Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。

  1. 點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 「啟動 Cloud Shell」圖示

  2. 系統顯示視窗時,請按照下列步驟操作:

    • 繼續操作 Cloud Shell 視窗。
    • 授權 Cloud Shell 使用您的憑證發出 Google Cloud API 呼叫。

連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID。輸出內容中有一行文字,宣告本工作階段的 Project_ID

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud 是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。

  1. (選用) 您可以執行下列指令來列出使用中的帳戶:
gcloud auth list
  1. 點按「授權」

輸出內容:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (選用) 您可以使用下列指令來列出專案 ID:
gcloud config list project

輸出內容:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} 注意:如需 gcloud 的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南

啟用 Dataproc API

  1. 前往 Google Cloud 控制台,在標題列的「搜尋」欄位輸入 Cloud Dataproc API,然後點選搜尋結果中的「Cloud Dataproc API」

  2. 如果尚未啟用,請點選「啟用」

工作 1:在 Dataplex 中建立湖泊、儲存區和資產

如要定義並執行資料品質工作,您需要一些 Dataplex Universal Catalog 資源。

在這項工作中,您會建立新的 Dataplex Universal Catalog 湖泊來儲存電子商務客戶資訊,在湖泊新增原始資料儲存區,然後連結預先建立的 BigQuery 資料集,做為儲存區中的新資產。

建立湖泊

  1. 前往 Google Cloud 控制台,依序點選「導覽選單」圖示 (導覽選單) >「查看所有產品」,然後依序前往「數據分析」>「Dataplex Universal Catalog」

如果出現「歡迎使用新版 Dataplex Universal Catalog」提示訊息,請點選「關閉」

  1. 在「管理湖泊」下方,點選「管理」

  2. 點選「建立湖泊」

  3. 在下方輸入必要資訊來建立新的湖泊。其他欄位則全部保留預設值:

屬性
顯示名稱 Ecommerce Lake
區域
  1. 點選「建立」

湖泊會在 3 分鐘內建立完成。

在湖泊中新增儲存區

  1. 在「管理」分頁點選湖泊名稱。

  2. 點選「+新增儲存區」

  3. 在下方輸入必要資訊來建立新的儲存區。其他欄位則全部保留預設值:

屬性
顯示名稱 Customer Contact Raw Zone
類型 原始資料儲存區
資料位置 區域性
  1. 點選「建立」

儲存區會在 2 分鐘內建立完畢。

注意:儲存區狀態變成「執行中」後,就能執行下一項工作。

將資產連結至儲存區

  1. 在「儲存區」分頁中,點選「Customer Contact Raw Zone」

  2. 在「資產」分頁點選「+新增資產」

  3. 點選「Add an asset」

  4. 在下方輸入必要資訊來連接新資產。其他欄位則保留預設值。

屬性
類型 BigQuery 資料集
顯示名稱 Contact Info
資料集 .customers
  1. 按一下「完成」

  2. 點選「繼續」

  3. 在「探索功能設定」部分,選取「繼承」來繼承儲存區層級的探索設定,然後點選「繼續」

  4. 點選「提交」

點選「Check my progress」,確認目標已達成。 在 Dataplex Universal Catalog 建立湖泊、儲存區和資產

工作 2:查詢 BigQuery 資料表,檢查資料品質

本實驗室使用兩個預先建立的 BigQuery 資料集:

  • customers:包含 contact_info 資料表,內有客戶的聯絡資訊,如客戶 ID、名稱及電子郵件地址等。您會在參與本實驗室期間探索這個資料表,並檢查是否有資料品質問題。

  • customers_dq_dataset:不含任何資料表。當您在後續工作中定義資料品質工作時,會使用該資料集做為目的地,儲存含有資料品質工作結果的新資料表。

在這項工作中,您要查詢 customers 資料集,找出資料品質問題,納入資料品質工作的檢查內容。此外,您也要指定 customers_dq_dataset 資料集,在後續工作中用於儲存資料品質工作結果。

開啟 BigQuery 控制台

  1. 在 Google Cloud 控制台中,依序選取「導覽選單」>「BigQuery」

接著,畫面中會顯示「歡迎使用 Cloud 控制台中的 BigQuery」訊息方塊,當中會列出快速入門導覽課程指南的連結和版本資訊。

  1. 點選「完成」

BigQuery 控制台會隨即開啟。

查詢 contact_info 資料表

  1. 在「Explorer」窗格中,點選專案 ID 旁邊的展開箭頭 (),列出內容。

您應該會看到三個資料集:

  • customer_contact_raw_zone
  • customers
  • customers_dq_dataset
  1. 在 SQL 編輯器中,點選「SQL 查詢」 (+)。貼上下列查詢,然後點選「執行」
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

這項查詢會從原始資料表中選取 50 筆記錄,並在結果中按照客戶 ID 排序記錄。

  1. 在「結果」窗格中,捲動畫面查看結果。

    請注意,有些記錄缺少客戶 ID 或電子郵件地址有誤,可能導致難以管理客戶訂單。

contact_info 資料表中的資料不完整

點選「Check my progress」,確認目標已達成。 查詢 BigQuery 資料表,檢查資料品質

工作 3:建立並上傳資料品質規格檔案

Dataplex 資料品質檢查要求是使用 CloudDQ YAML 規格檔案來定義。YAML 規格檔案建立完畢後,就會上傳到 Cloud Storage bucket,供資料品質工作使用。

YAML 檔案 有四個主要部分:

  • 要執行的規則清單 (預先定義或自訂規則)。
  • 列篩選器,用於選取要驗證的部分資料。
  • 規則繫結,用於將已定義的規則套用到資料表。
  • 選用規則維度,用於指定 YAML 檔案可包含的規則類型。

在這項工作中,您要為資料品質檢查工作定義新的 YAML 規格檔案,在指定的 BigQuery 資料表中,找出為空值的客戶 ID 和電子郵件地址。您還需要指定預先建立的 customer_dq_dataset BigQuery 資料集,用來將資料品質結果儲存至 dq_results 資料表。

檔案定義完成後,請上傳到預先建立的 Cloud Storage bucket,以便在後續工作用於執行資料品質作業。

建立資料品質規格檔案

  1. 在 Cloud Shell 執行下列指令,為資料品質規格建立新的空白檔案:
nano dq-customer-raw-data.yaml
  1. 將下列程式碼貼入檔案:
rules: - nonNullExpectation: {} column: id dimension: COMPLETENESS threshold: 1 - regexExpectation: regex: '^[^@]+[@]{1}[^@]+$' column: email dimension: CONFORMANCE ignoreNull: true threshold: .85 postScanActions: bigqueryExport: resultsTable: projects/{{{project_0.project_id | Project ID}}}/datasets/customers_dq_dataset/tables/dq_results
  1. 查看程式碼,找出這個檔案中定義的兩項主要資料品質規則。

dq-customer-raw-data.yaml 檔案指定兩項規則:

  • 第一條規則是指完整性維度,例如空值。
  • 第二項規則是指合規性維度,例如無效值。

在這個檔案中,兩項規則都與特定資料表資料欄繫結:

  • 第一個規則繫結會將 notNullExpectation 規則繫結至 contact_info 資料表的 id 欄,並將門檻設為 100%,以驗證 ID 欄是否含有空值。
  • 第二個規則繫結會將 regexExpectation 規則繫結至 contact_info 資料表的 email 欄,並設定 85% 的門檻,以檢查電子郵件地址是否有效。
  1. 依序按下 Ctrl+X 鍵、Y 鍵,儲存並關閉檔案。

將檔案上傳到 Cloud Storage

  • 在 Cloud Shell 執行下列指令,將檔案上傳至 Cloud Storage bucket:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

點選「Check my progress」,確認目標已達成。 建立並上傳資料品質規格檔案

工作 4:在 Dataplex 定義並執行自動資料品質工作

資料品質程序會使用資料品質規格 YAML 檔案,執行資料品質工作,並產生要寫入 BigQuery 資料集的資料品質指標。

在這項工作中,您會使用 Cloud Storage 中的資料品質規格 YAML 檔案,定義並執行自動資料品質工作。定義這項工作時,還需要指定 customer_dq_dataset 資料集,用來儲存資料品質結果。

  1. 在 Cloud Shell 執行下列指令,建立資料品質掃描作業:
gcloud dataplex datascans create data-quality customer-orders-data-quality-job \ --project={{{project_0.project_id | Project ID}}} \ --location={{{project_0.default_region | Region}}} \ --data-source-resource="//bigquery.googleapis.com/projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info" \ --data-quality-spec-file="gs://{{{project_0.project_id | Project ID}}}-bucket/dq-customer-raw-data.yaml" 注意:在本研究室中,Compute Engine 預設服務帳戶已預先設定適當的 IAM 角色和權限。詳情請參閱 Dataplex Universal Catalog 說明文件的「建立服務帳戶」一節。
  1. 返回控制台。您應該仍在 Dataplex Universal Catalog 中。

  2. 在「管理」下方,點按「資料剖析與品質」

  3. 點選「customer-orders-data-quality-job」

  4. 按一下「立即執行」

注意:工作會在幾分鐘內執行完畢。

工作完成後,請注意狀態為「1 dimension 1 rule failed」

  1. 按一下「查看結果」

請注意,email 欄的資料品質規則狀態為「通過」,但 id 欄的狀態為「未通過」。這是預期中的結果,因為:

  • id 資料欄的規則是空值檢查,門檻為 100%。也就是說,如要通過規則,所有資料列都必須有 ID 值。在這個案例中,contact_info 資料表的 id 資料欄有 10% 的資料列含有 null 值。因此,這項規則的結果為「失敗」。

  • 「email」欄的規則是 Regex Check,門檻為 85%。這表示如果 15% 的記錄電子郵件格式無效,規則就會失敗。在這個案例中,contact_info 資料表的 email 欄有 ~10.5% 的資料列含有無效的電子郵件地址。因此這項規則的結果為「通過」

點選「Check my progress」,確認目標已達成。 在 Dataplex Universal Catalog 定義並執行資料品質工作

工作 5:在 BigQuery 中查看資料品質結果

在這項工作中,您要檢查 customers_dq_dataset 中的資料表,找出缺少客戶 ID 值,或含有無效電子郵件地址值的記錄。

  1. 返回 BigQuery,在「Explorer」窗格中,展開專案 ID 旁邊的箭頭以列出內容:

  2. 點選 customer_dq_dataset 資料集旁的展開箭頭。

  3. 點選 dq_results 資料表。

  4. 點選「預覽」分頁標籤來查看結果。

  5. 捲動至 rule_failed_records_query 欄。

  6. 複製查詢,開頭為 WITH

  7. 點選「SQL 查詢」 (+)。複製查詢並貼到 SQL 編輯器,然後點選「執行」

    查詢結果會顯示 contact_info 資料表中無效的電子郵件地址值。請注意 dq_validation_column_id 欄中每個項目的「email」。

    VALID_EMAIL 的資料品質結果

  8. 第二個儲存格含有 VALID_CUSTOMER 規則結果的查詢,請為該儲存格重複步驟 7 至 8。

    查詢結果會找出 contact_info 資料表中缺少 ID 值的 10 筆記錄。

    VALID_CUSTOMER 的資料品質結果

    請注意 dq_validation_column_id 欄中每個項目的「id」。

點選「Check my progress」,確認目標已達成。 在 BigQuery 資料表中查看資料品質結果

恭喜!

您已建立自訂資料品質規格檔案,並用該檔案對 BigQuery 資料表執行資料品質工作,成功使用 Dataplex Universal Catalog 評估資料品質。

Google Cloud 教育訓練與認證

協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。

使用手冊上次更新日期:2025 年 9 月 2 日

實驗室上次測試日期:2025 年 9 月 2 日

Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。

准备工作

  1. 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
  2. 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
  3. 在屏幕左上角,点击开始实验即可开始

使用无痕浏览模式

  1. 复制系统为实验提供的用户名密码
  2. 在无痕浏览模式下,点击打开控制台

登录控制台

  1. 使用您的实验凭证登录。使用其他凭证可能会导致错误或产生费用。
  2. 接受条款,并跳过恢复资源页面
  3. 除非您已完成此实验或想要重新开始,否则请勿点击结束实验,因为点击后系统会清除您的工作并移除该项目

此内容目前不可用

一旦可用,我们会通过电子邮件告知您

太好了!

一旦可用,我们会通过电子邮件告知您

一次一个实验

确认结束所有现有实验并开始此实验

使用无痕浏览模式运行实验

请使用无痕模式或无痕式浏览器窗口运行此实验。这可以避免您的个人账号与学生账号之间发生冲突,这种冲突可能导致您的个人账号产生额外费用。