
准备工作
- 实验会创建一个 Google Cloud 项目和一些资源,供您使用限定的一段时间
- 实验有时间限制,并且没有暂停功能。如果您中途结束实验,则必须重新开始。
- 在屏幕左上角,点击开始实验即可开始
Create a lake, zone, and asset
/ 20
Query BigQuery table to review data quality
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Review data quality results in BigQuery
/ 20
Dataplex Universal Catalog 是智慧型的 data fabric,有助於組織集中探索、管理、監控及治理資料湖泊、資料倉儲和資料市集內的資料,以便大規模分析數據。
Dataplex Universal Catalog 有一項重要功能,就是可以對 Dataplex Universal Catalog 資產 (如 BigQuery 資料表和 Cloud Storage 檔案),定義並執行資料品質檢查工作。只要使用 Dataplex 資料品質工作,就能驗證資料產生管道的資料、定期監控資料品質是否符合標準,並根據監管需求製作資料品質報表,將資料品質檢查作業融入日常工作流程。
在本實驗室,您會瞭解使用 Dataplex Universal Catalog 評估資料品質的方法,包括如何建立自訂資料品質規格檔案,並用該檔案對 BigQuery 資料定義並執行資料品質工作。
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
如有必要,請將下方的 Username 貼到「登入」對話方塊。
您也可以在「Lab Details」窗格找到 Username。
點選「下一步」。
複製下方的 Password,並貼到「歡迎使用」對話方塊。
您也可以在「Lab Details」窗格找到 Password。
點選「下一步」。
按過後續的所有頁面:
Google Cloud 控制台稍後會在這個分頁開啟。
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示 。
系統顯示視窗時,請按照下列步驟操作:
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
輸出內容:
輸出內容:
gcloud
的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
前往 Google Cloud 控制台,在標題列的「搜尋」欄位輸入 Cloud Dataproc API,然後點選搜尋結果中的「Cloud Dataproc API」。
如果尚未啟用,請點選「啟用」。
如要定義並執行資料品質工作,您需要一些 Dataplex Universal Catalog 資源。
在這項工作中,您會建立新的 Dataplex Universal Catalog 湖泊來儲存電子商務客戶資訊,在湖泊新增原始資料儲存區,然後連結預先建立的 BigQuery 資料集,做為儲存區中的新資產。
如果出現「歡迎使用新版 Dataplex Universal Catalog
」提示訊息,請點選「關閉」。
在「管理湖泊」下方,點選「管理」。
點選「建立湖泊」。
在下方輸入必要資訊來建立新的湖泊。其他欄位則全部保留預設值:
屬性 | 值 |
---|---|
顯示名稱 | Ecommerce Lake |
區域 |
湖泊會在 3 分鐘內建立完成。
在「管理」分頁點選湖泊名稱。
點選「+新增儲存區」。
在下方輸入必要資訊來建立新的儲存區。其他欄位則全部保留預設值:
屬性 | 值 |
---|---|
顯示名稱 | Customer Contact Raw Zone |
類型 | 原始資料儲存區 |
資料位置 | 區域性 |
儲存區會在 2 分鐘內建立完畢。
在「儲存區」分頁中,點選「Customer Contact Raw Zone」。
在「資產」分頁點選「+新增資產」。
點選「Add an asset」。
在下方輸入必要資訊來連接新資產。其他欄位則保留預設值。
屬性 | 值 |
---|---|
類型 | BigQuery 資料集 |
顯示名稱 | Contact Info |
資料集 |
按一下「完成」。
點選「繼續」。
在「探索功能設定」部分,選取「繼承」來繼承儲存區層級的探索設定,然後點選「繼續」。
點選「提交」。
點選「Check my progress」,確認目標已達成。
本實驗室使用兩個預先建立的 BigQuery 資料集:
customers:包含 contact_info 資料表,內有客戶的聯絡資訊,如客戶 ID、名稱及電子郵件地址等。您會在參與本實驗室期間探索這個資料表,並檢查是否有資料品質問題。
customers_dq_dataset:不含任何資料表。當您在後續工作中定義資料品質工作時,會使用該資料集做為目的地,儲存含有資料品質工作結果的新資料表。
在這項工作中,您要查詢 customers 資料集,找出資料品質問題,納入資料品質工作的檢查內容。此外,您也要指定 customers_dq_dataset 資料集,在後續工作中用於儲存資料品質工作結果。
接著,畫面中會顯示「歡迎使用 Cloud 控制台中的 BigQuery」訊息方塊,當中會列出快速入門導覽課程指南的連結和版本資訊。
BigQuery 控制台會隨即開啟。
您應該會看到三個資料集:
這項查詢會從原始資料表中選取 50 筆記錄,並在結果中按照客戶 ID 排序記錄。
在「結果」窗格中,捲動畫面查看結果。
請注意,有些記錄缺少客戶 ID 或電子郵件地址有誤,可能導致難以管理客戶訂單。
點選「Check my progress」,確認目標已達成。
Dataplex 資料品質檢查要求是使用 CloudDQ YAML 規格檔案來定義。YAML 規格檔案建立完畢後,就會上傳到 Cloud Storage bucket,供資料品質工作使用。
YAML 檔案 有四個主要部分:
在這項工作中,您要為資料品質檢查工作定義新的 YAML 規格檔案,在指定的 BigQuery 資料表中,找出為空值的客戶 ID 和電子郵件地址。您還需要指定預先建立的 customer_dq_dataset BigQuery 資料集,用來將資料品質結果儲存至 dq_results 資料表。
檔案定義完成後,請上傳到預先建立的 Cloud Storage bucket,以便在後續工作用於執行資料品質作業。
dq-customer-raw-data.yaml
檔案指定兩項規則:
在這個檔案中,兩項規則都與特定資料表資料欄繫結:
Ctrl+X
鍵、Y
鍵,儲存並關閉檔案。點選「Check my progress」,確認目標已達成。
資料品質程序會使用資料品質規格 YAML 檔案,執行資料品質工作,並產生要寫入 BigQuery 資料集的資料品質指標。
在這項工作中,您會使用 Cloud Storage 中的資料品質規格 YAML 檔案,定義並執行自動資料品質工作。定義這項工作時,還需要指定 customer_dq_dataset 資料集,用來儲存資料品質結果。
返回控制台。您應該仍在 Dataplex Universal Catalog 中。
在「管理」下方,點按「資料剖析與品質」。
點選「customer-orders-data-quality-job」。
按一下「立即執行」。
工作完成後,請注意狀態為「1 dimension 1 rule failed」。
請注意,email 欄的資料品質規則狀態為「通過」,但 id 欄的狀態為「未通過」。這是預期中的結果,因為:
id 資料欄的規則是空值檢查
,門檻為 100%
。也就是說,如要通過規則,所有資料列都必須有 ID 值。在這個案例中,contact_info 資料表的 id 資料欄有 10%
的資料列含有 null
值。因此,這項規則的結果為「失敗」。
「email」欄的規則是 Regex Check
,門檻為 85%
。這表示如果 15%
的記錄電子郵件格式無效,規則就會失敗。在這個案例中,contact_info 資料表的 email 欄有 ~10.5%
的資料列含有無效的電子郵件地址。因此這項規則的結果為「通過」。
點選「Check my progress」,確認目標已達成。
在這項工作中,您要檢查 customers_dq_dataset 中的資料表,找出缺少客戶 ID 值,或含有無效電子郵件地址值的記錄。
返回 BigQuery,在「Explorer」窗格中,展開專案 ID 旁邊的箭頭以列出內容:
點選 customer_dq_dataset 資料集旁的展開箭頭。
點選 dq_results 資料表。
點選「預覽」分頁標籤來查看結果。
捲動至 rule_failed_records_query 欄。
複製查詢,開頭為 WITH
。
點選「SQL 查詢」 (+)。複製查詢並貼到 SQL 編輯器,然後點選「執行」。
查詢結果會顯示 contact_info 資料表中無效的電子郵件地址值。請注意 dq_validation_column_id 欄中每個項目的「email」。
第二個儲存格含有 VALID_CUSTOMER 規則結果的查詢,請為該儲存格重複步驟 7 至 8。
查詢結果會找出 contact_info 資料表中缺少 ID 值的 10 筆記錄。
請注意 dq_validation_column_id 欄中每個項目的「id」。
點選「Check my progress」,確認目標已達成。
您已建立自訂資料品質規格檔案,並用該檔案對 BigQuery 資料表執行資料品質工作,成功使用 Dataplex Universal Catalog 評估資料品質。
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 9 月 2 日
實驗室上次測試日期:2025 年 9 月 2 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。
此内容目前不可用
一旦可用,我们会通过电子邮件告知您
太好了!
一旦可用,我们会通过电子邮件告知您
一次一个实验
确认结束所有现有实验并开始此实验