GSP1144

總覽
Dataplex 是智慧型 data fabric,可讓機構集中探索、控管、監控及管理資料湖泊、資料倉儲和資料市集裡的資料,以便大規模分析數據。具體來說,您可以使用 Dataplex 建構資料網格架構,這種機構層面的技術性做法會將資料擁有權分散給多位網域資料擁有者。
Dataplex 管理資料的方式不需移動或複製資料。當您新增資料資產時,Dataplex 會收集結構化與非結構化資料的中繼資料,並自動將所有中繼資料登錄到安全的統合式中繼存放區。接下來即可透過 Data Catalog 及 BigQuery 等 Google Cloud 服務評估資料和中繼資料。
本實驗室將說明如何開始自行建構資料網格,包括使用指令列,在 Dataplex 中建立及移除湖泊、儲存區和資產。
學習內容
- 啟用 Dataplex API
- 建立湖泊
- 在湖泊中新增儲存區
- 連接及卸載資產
- 刪除儲存區和湖泊
設定和需求
瞭解以下事項後,再點選「Start Lab」按鈕
請詳閱以下操作說明。實驗室活動會計時,且中途無法暫停。點選「Start Lab」後就會開始計時,顯示可使用 Google Cloud 資源的時間。
您將在真正的雲端環境完成實作實驗室活動,而不是模擬或示範環境。為此,我們會提供新的暫時憑證,供您在實驗室活動期間登入及存取 Google Cloud。
為了順利完成這個實驗室,請先確認:
- 可以使用標準的網際網路瀏覽器 (Chrome 瀏覽器為佳)。
注意事項:請使用無痕模式 (建議選項) 或私密瀏覽視窗執行此實驗室,這可以防止個人帳戶和學員帳戶之間的衝突,避免個人帳戶產生額外費用。
- 是時候完成實驗室活動了!別忘了,活動一旦開始將無法暫停。
注意事項:務必使用實驗室專用的學員帳戶。如果使用其他 Google Cloud 帳戶,可能會產生額外費用。
如何開始研究室及登入 Google Cloud 控制台
-
點選「Start Lab」按鈕。如果實驗室會產生費用,畫面上會出現選擇付款方式的對話方塊。左側的「Lab Details」窗格會顯示下列項目:
- 「Open Google Cloud console」按鈕
- 剩餘時間
- 必須在這個研究室中使用的臨時憑證
- 完成這個實驗室所需的其他資訊 (如有)
-
點選「Open Google Cloud console」;如果使用 Chrome 瀏覽器,也能按一下滑鼠右鍵,選取「在無痕視窗中開啟連結」。
接著,實驗室會啟動相關資源,並開啟另一個分頁,顯示「登入」頁面。
提示:您可以在不同的視窗中並排開啟分頁。
注意:如果頁面中顯示「選擇帳戶」對話方塊,請點選「使用其他帳戶」。
-
如有必要,請將下方的 Username 貼到「登入」對話方塊。
{{{user_0.username | "Username"}}}
您也可以在「Lab Details」窗格找到 Username。
-
點選「下一步」。
-
複製下方的 Password,並貼到「歡迎使用」對話方塊。
{{{user_0.password | "Password"}}}
您也可以在「Lab Details」窗格找到 Password。
-
點選「下一步」。
重要事項:請務必使用實驗室提供的憑證,而非自己的 Google Cloud 帳戶憑證。
注意:如果使用自己的 Google Cloud 帳戶來進行這個實驗室,可能會產生額外費用。
-
按過後續的所有頁面:
- 接受條款及細則。
- 由於這是臨時帳戶,請勿新增救援選項或雙重驗證機制。
- 請勿申請免費試用。
Google Cloud 控制台稍後會在這個分頁開啟。
注意:如要使用 Google Cloud 產品和服務,請點選「導覽選單」,或在「搜尋」欄位輸入服務或產品名稱。
啟動 Cloud Shell
Cloud Shell 是搭載多項開發工具的虛擬機器,提供永久的 5 GB 主目錄,而且在 Google Cloud 中運作。Cloud Shell 提供指令列存取權,方便您使用 Google Cloud 資源。
-
點按 Google Cloud 控制台頂端的「啟用 Cloud Shell」圖示
。
-
系統顯示視窗時,請按照下列步驟操作:
- 繼續操作 Cloud Shell 視窗。
- 授權 Cloud Shell 使用您的憑證發出 Google Cloud API 呼叫。
連線建立完成即代表已通過驗證,而且專案已設為您的 Project_ID:。輸出內容中有一行文字,宣告本工作階段的 Project_ID:
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
是 Google Cloud 的指令列工具,已預先安裝於 Cloud Shell,並支援 Tab 鍵自動完成功能。
- (選用) 您可以執行下列指令來列出使用中的帳戶:
gcloud auth list
- 點按「授權」。
輸出內容:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
- (選用) 您可以使用下列指令來列出專案 ID:
gcloud config list project
輸出內容:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
注意:如需 gcloud
的完整說明,請前往 Google Cloud 參閱 gcloud CLI 總覽指南。
啟用 Dataplex API 並設定變數
- 在 Cloud Shell 執行下列指令,啟用 Dataplex API。
gcloud services enable \
dataplex.googleapis.com
- 執行下列指令,為專案 ID 建立變數:
export PROJECT_ID=$(gcloud config get-value project)
- 執行下列指令,為區域建立變數:
export REGION={{{project_0.default_region | "filled in at lab start"}}}
gcloud config set compute/region $REGION
工作 1:建立湖泊
在 Dataplex 中,湖泊是最高層級的組織網域,代表特定資料區域或業務單位。舉例來說,如果為組織中每個部門或資料領域建立湖泊,就能為特定使用者群組整理及提供資料。
在這項工作中,您將透過指令列建立湖泊,開始建構資料網格。
- 在 Cloud Shell 執行下列指令,建立名為 Ecommerce 的新湖泊:
gcloud dataplex lakes create ecommerce \
--location=$REGION \
--display-name="Ecommerce" \
--description="Ecommerce Domain"
湖泊會在 3 分鐘內建立完成。
如果收到「Status code: 403. Permission 'dataplex.lakes.create' denied
」,請稍候幾分鐘再試。在先前的「設定」一節中啟用 Dataplex API 後,可能需要更多時間才能授予權限。
畫面會顯示類似以下的最終輸出內容:
Created [ecommerce] Lake created in [projects/$PROJECT_ID/locations/$REGION].
建立 Dataplex 湖泊
工作 2:在湖泊中新增儲存區
建立湖泊後,就能在湖泊中新增儲存區。儲存區是湖泊中的子網域,能用來進一步區分資料類別。舉例來說,您可以依據階段、使用情況或限制分類資料。
儲存區有兩種類型:
- 原始資料儲存區含有原始格式的資料 (例如 Cloud Storage bucket 中的檔案),不需接受嚴格的類型檢查。
- 整理後資料儲存區含有經過清理的格式化資料 (例如 BigQuery 資料集),這類內容已可用於數據分析。
在這項工作中,您將使用指令列建立整理後資料儲存區,以便處理 BigQuery 資料集。
- 在 Cloud Shell 執行下列指令,建立新的整理後資料儲存區 Orders Curated Zone,並啟用中繼資料探索功能:
gcloud dataplex zones create orders-curated-zone \
--location=$REGION \
--lake=ecommerce \
--display-name="Orders Curated Zone" \
--resource-location-type=SINGLE_REGION \
--type=CURATED \
--discovery-enabled \
--discovery-schedule="0 * * * *"
儲存區會在 2 分鐘內建立完成。
畫面會顯示類似以下的最終輸出內容:
Created [orders-curated-zone] Zone created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce].
在湖泊中新增儲存區
工作 3:將資產附加至儲存區
Cloud Storage 值區或 BigQuery 資料集裡儲存的資料可以做為資產,附加至 Dataplex 湖泊中的儲存區。
在這項工作中,您將使用指令列建立 BigQuery 資料集,然後將資料集附加至先前建立的儲存區。
建立 BigQuery 資料集
- 在 Cloud Shell 執行下列指令,建立名為 orders 的新 BigQuery 資料集:
bq mk --location=$REGION --dataset orders
雖然這個資料集不含任何資料表或資料,但您現在可將這個資料集連接至儲存區,新建立的資料表和載入的資料隨即會自動整合至儲存區。
畫面會顯示類似以下的最終輸出內容:
Dataset '$PROJECT_ID:orders' successfully created.
將 BigQuery 資料集附加至儲存區
- 在 Cloud Shell 執行下列指令,將 BigQuery 資料集附加至儲存區,做為名為 Orders Curated Data 的資產,並啟用中繼資料探索功能:
gcloud dataplex assets create orders-curated-dataset \
--location=$REGION \
--lake=ecommerce \
--zone=orders-curated-zone \
--display-name="Orders Curated Dataset" \
--resource-type=BIGQUERY_DATASET \
--resource-name=projects/$PROJECT_ID/datasets/orders \
--discovery-enabled
資產會在 2 分鐘內建立完成。
畫面會顯示類似以下的最終輸出內容:
Created [orders-curated-dataset] Asset created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce/zones/orders-curated-zone].
將資產連結至儲存區
工作 4:刪除資產、儲存區和湖泊
您必須先卸載資產、刪除儲存區,然後才能刪除湖泊。
在這項工作中,您將使用指令列卸載儲存區中的資產、刪除儲存區,最後再刪除湖泊。
卸載資產
- 在 Cloud Shell 執行下列指令,將 BigQuery 資料集從儲存區卸載:
gcloud dataplex assets delete orders-curated-dataset --location=$REGION --zone=orders-curated-zone --lake=ecommerce
如果系統提示您確認,請輸入 Y
。
這項操作會刪除 BigQuery 資料集中的基礎資料,您只是無法透過 Dataplex 中的湖泊存取或探索 BigQuery 資料集。
畫面會顯示類似以下的最終輸出內容:
已刪除資產 [orders-curated-dataset]。
刪除儲存區
- 在 Cloud Shell 執行下列指令,刪除儲存區:
gcloud dataplex zones delete orders-curated-zone --location=$REGION --lake=ecommerce
如果系統提示您確認,請輸入 Y
。
畫面會顯示類似以下的最終輸出內容:
已刪除儲存區 [orders-curated-zone]。
刪除湖泊
- 在 Cloud Shell 執行下列指令,刪除資料湖:
gcloud dataplex lakes delete ecommerce --location=$REGION
如果系統提示您確認,請輸入 Y
。
畫面會顯示類似以下的最終輸出內容:
已刪除湖泊 [ecommerce]。
刪除資產、儲存區和 Dataplex 湖泊
恭喜!
您已學會使用指令列,在 Dataplex 中建立及刪除湖泊、儲存區和資產。
Google Cloud 教育訓練與認證
協助您瞭解如何充分運用 Google Cloud 的技術。我們的課程會介紹專業技能和最佳做法,讓您可以快速掌握要領並持續進修。我們提供從基本到進階等級的訓練課程,並有隨選、線上和虛擬課程等選項,方便您抽空參加。認證可協助您驗證及證明自己在 Google Cloud 技術方面的技能和專業知識。
使用手冊上次更新日期:2025 年 4 月 23 日
實驗室上次測試日期:2025 年 4 月 23 日
Copyright 2025 Google LLC 保留所有權利。Google 和 Google 標誌是 Google LLC 的商標,其他公司和產品名稱則有可能是其關聯公司的商標。