GSP1158

Opis
Dataplex Universal Catalog to inteligentna tkanina danych, która umożliwia organizacjom centralne wykrywanie i monitorowanie danych w jeziorach, hurtowniach i składnicach danych oraz zarządzanie nimi, zapewniając w ten sposób możliwość przeprowadzania analiz na dużą skalę.
Cenną funkcją tkaniny Dataplex Universal Catalog jest możliwość definiowania i przeprowadzania kontroli jakości danych w jej zasobach, takich jak tabele BigQuery i pliki w Cloud Storage. Za pomocą zadań dotyczących jakości danych w Dataplex możesz włączyć kontrole jakości danych w codzienne przepływy pracy przez sprawdzanie poprawności danych wchodzących w skład potoku produkcyjnego, regularne monitorowanie jakości danych pod kątem określonego zestawu kryteriów i tworzenie raportów dotyczących jakości danych na potrzeby spełnienia wymogów prawnych.
W tym module dowiesz się, jak ocenić jakość danych za pomocą Dataplex Universal Catalog. Utworzysz własny plik specyfikacji jakości danych i wykorzystasz go, aby zdefiniować i uruchomić zadanie dotyczące jakości na danych BigQuery.
Jakie zadania wykonasz
- Utworzysz jezioro danych, strefę i zasob w Dataplex Universal Catalog.
- Wykonasz zapytania na tabeli BigQuery w celu sprawdzenia jakości danych.
- Utworzysz i prześlesz plik specyfikacji jakości danych.
- Zdefiniujesz i uruchomisz zadanie dotyczące jakości danych.
- Przejrzysz wyniki zadania dotyczącego jakości danych.
Konfiguracja i wymagania
Zanim klikniesz przycisk Rozpocznij moduł
Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.
W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.
Do ukończenia modułu potrzebne będą:
- Dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito (zalecane) lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.
- Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: w tym module używaj tylko konta do nauki. Jeśli użyjesz innego konta Google Cloud, mogą na nim zostać naliczone opłaty.
Rozpoczynanie modułu i logowanie się w konsoli Google Cloud
-
Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się okno, w którym możesz wybrać formę płatności.
Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:
- przyciskiem Otwórz konsolę Google Cloud;
- czasem, który Ci pozostał;
- tymczasowymi danymi logowania, których musisz użyć w tym module;
- innymi informacjami potrzebnymi do ukończenia modułu.
-
Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).
Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.
Wskazówka: otwórz karty obok siebie w osobnych oknach.
Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
-
W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.
{{{user_0.username | "Username"}}}
Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.
-
Kliknij Dalej.
-
Skopiuj podane niżej hasło i wklej je w oknie powitania.
{{{user_0.password | "Password"}}}
Hasło znajdziesz też w panelu Szczegóły modułu.
-
Kliknij Dalej.
Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud.
Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
-
Na kolejnych stronach wykonaj następujące czynności:
- Zaakceptuj Warunki korzystania z usługi.
- Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
- Nie rejestruj się w bezpłatnych wersjach próbnych.
Poczekaj, aż na karcie otworzy się konsola Google Cloud.
Uwaga: aby uzyskać dostęp do produktów i usług Google Cloud, kliknij Menu nawigacyjne lub wpisz nazwę usługi albo produktu w polu Szukaj.
Aktywowanie Cloud Shell
Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.
-
Kliknij Aktywuj Cloud Shell
na górze konsoli Google Cloud.
-
Kliknij te okna:
- Przejdź przez okno z informacjami o Cloud Shell.
- Zezwól Cloud Shell na używanie Twoich danych logowania w celu wywoływania interfejsu Google Cloud API.
Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze Project_ID . Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem Project_ID dla tej sesji:
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.
- (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
gcloud auth list
- Kliknij Autoryzuj.
Dane wyjściowe:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
- (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
gcloud config list project
Dane wyjściowe:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Uwaga: pełną dokumentację gcloud
w Google Cloud znajdziesz w opisie gcloud CLI.
Włączanie Dataproc API
-
Na pasku tytułu w konsoli Google Cloud w polu Szukaj wpisz Cloud Dataproc API, a następnie w wynikach wyszukiwania kliknij Cloud Dataproc API.
-
W razie potrzeby kliknij Włącz.
Zadanie 1. Tworzenie jeziora danych, strefy i zasobu w Dataplex
Aby zdefiniować i uruchomić zadania dotyczące jakości danych, musisz mieć pewne zasoby Dataplex Universal Catalog.
W tym zadaniu utworzysz nowe jezioro danych Dataplex Universal Catalog na informacje o klientach sklepu internetowego, dodasz do jeziora strefę nieprzetworzoną, a potem dołączysz do strefy gotowy zbiór danych BigQuery jako nowy zasób.
Tworzenie jeziora
- W konsoli Google Cloud kliknij Menu nawigacyjne (
) > Wyświetl wszystkie usługi i przejdź do sekcji Analityka > Dataplex Universal Catalog.
Jeśli pojawi się okno Witamy w nowej usłudze Dataplex Universal Catalog
, kliknij Zamknij.
-
W sekcji Zarządzanie jeziorami kliknij Zarządzaj.
-
Kliknij Utwórz jezioro danych.
-
Wpisz poniższe informacje potrzebne do utworzenia nowego jeziora. W pozostałych polach pozostaw wartości domyślne:
Właściwość |
Wartość |
Wyświetlana nazwa |
Ecommerce Lake |
Region |
|
- Kliknij Utwórz.
Utworzenie jeziora może zająć do 3 minut.
Dodawanie strefy do jeziora
-
Na karcie Zarządzanie kliknij nazwę jeziora.
-
Kliknij DODAJ STREFĘ.
-
Wpisz poniższe informacje potrzebne do utworzenia nowej strefy. W pozostałych polach pozostaw wartości domyślne:
Właściwość |
Wartość |
Wyświetlana nazwa |
Customer Contact Raw Zone |
Typ |
Strefa nieprzetworzona |
Lokalizacje danych |
Region |
- Kliknij Utwórz.
Utworzenie strefy może zająć do 2 minut.
Uwaga: następne zadanie możesz wykonać, gdy status strefy będzie Aktywny.
Dołączanie zasobu do strefy
-
Na karcie Strefy kliknij Customer Contact Raw Zone.
-
Na karcie Zasoby kliknij Dodaj zasób.
-
Kliknij Dodaj zasób.
-
Wpisz poniższe informacje potrzebne do dołączenia nowego zasobu. W pozostałych polach pozostaw wartości domyślne.
Właściwość |
Wartość |
Typ |
Zbiór danych BigQuery |
Wyświetlana nazwa |
Contact Info |
Zbiór danych |
.customers |
-
Kliknij Gotowe.
-
Kliknij Dalej.
-
W Ustawieniach wykrywania wybierz Odziedzicz, aby odziedziczyć ustawienia wykrywania z poziomu strefy. Następnie kliknij Dalej.
-
Kliknij Prześlij.
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Utworzenie jeziora danych, strefy i zasobu w Dataplex Universal Catalog
Zadanie 2. Wykonywanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych
W tym module używane są 2 wcześniej utworzone zbiory danych BigQuery:
-
customers: zawiera jedną tabelę o nazwie contact_info, w której znajdują się dane kontaktowe klientów, takie jak identyfikator klienta, jego imię i nazwisko, adres e-mail itp. To tabela, którą w tym module przeanalizujesz i sprawdzisz pod kątem problemów z jakością danych.
-
customers_dq_dataset: nie zawiera żadnych tabel. W późniejszym kroku, przy definiowaniu zadania dotyczącego jakości danych, wykorzystasz ten zbiór danych jako lokalizację docelową dla nowej tabeli z wynikami tego zadania.
W tym zadaniu wykonasz zapytanie na zbiorze danych customers, aby znaleźć problemy z jakością danych, które można będzie włączyć jako poszczególne kontrole w zadanie dotyczące jakości danych. Wskażesz też zbiór danych customers_dq_dataset do zapisywania wyników zadania dotyczącego jakości danych w jednym z późniejszych kroków.
Otwieranie konsoli BigQuery
- W konsoli Google Cloud Console kliknij menu nawigacyjne > BigQuery.
Otworzy się okno Witamy w usłudze BigQuery w Cloud Console. Zawiera ono link do krótkiego wprowadzenia oraz informacji o wersji.
- Kliknij Gotowe.
Otworzy się konsola BigQuery.
Tworzenie zapytania do tabeli contact_info
- W panelu Eksplorator kliknij strzałkę rozwijania obok identyfikatora projektu (), aby wyświetlić zawartość.
Powinny pokazać się 3 zbiory danych:
- customer_contact_raw_zone
- customers
- customers_dq_dataset
- W edytorze SQL kliknij Zapytanie SQL (+). Wklej poniższe zapytanie i kliknij Uruchom:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info`
ORDER BY id
LIMIT 50
To zapytanie wybiera 50 rekordów z oryginalnej tabeli i porządkuje je w wynikach według identyfikatora klienta.
-
Przewiń wyniki w panelu Wyniki.
Zauważ, że w niektórych rekordach nie ma identyfikatora klienta lub adres e-mail jest niepoprawny, co może utrudnić zarządzanie zamówieniami klientów.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Wykonanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych
Zadanie 3. Tworzenie i przesyłanie pliku specyfikacji jakości danych
Wymagania dotyczące kontroli jakości danych w Dataplex określa się za pomocą plików specyfikacji YAML CloudDQ. Utworzony plik specyfikacji YAML jest przesyłany do zasobnika Cloud Storage, który jest udostępniany zadaniu dotyczącemu jakości danych.
Plik YAML ma 4 kluczowe sekcje:
- lista reguł do uruchomienia (mogą to być reguły wstępnie zdefiniowane lub dostosowane);
- filtry wierszy pozwalające wybrać podzbiór danych do sprawdzenia poprawności;
- powiązania reguł, które umożliwiają zastosowanie zdefiniowanych reguł w tabelach;
- opcjonalne wymiary reguł, dzięki którym można określić typy reguł dopuszczalne w pliku YAML.
W tym zadaniu zdefiniujesz nowy plik specyfikacji YAML na potrzeby różnych kontroli jakości danych, które wskażą brakujące identyfikatory klienta i adresy e-mail w danej tabeli BigQuery. Wskażesz również utworzony wcześniej zbiór danych BigQuery customer_dq_dataset jako miejsce do przechowywania wyników kontroli jakości danych w tabeli o nazwie dq_results.
Po zdefiniowaniu pliku prześlesz go do utworzonego wcześniej zasobnika Cloud Storage, co pozwoli wykorzystać go później przy uruchamianiu zadania dotyczącego jakości danych.
Tworzenie pliku specyfikacji jakości danych
- Aby utworzyć nowy pusty plik na specyfikację jakości danych, uruchom w Cloud Shell to polecenie:
nano dq-customer-raw-data.yaml
- Wklej do pliku ten kod:
rules:
- nonNullExpectation: {}
column: id
dimension: COMPLETENESS
threshold: 1
- regexExpectation:
regex: '^[^@]+[@]{1}[^@]+$'
column: email
dimension: CONFORMANCE
ignoreNull: true
threshold: .85
postScanActions:
bigqueryExport:
resultsTable: projects/{{{project_0.project_id | Project ID}}}/datasets/customers_dq_dataset/tables/dq_results
- Przejrzyj kod, aby znaleźć 2 główne reguły dotyczące jakości danych zdefiniowane w tym pliku.
Plik dq-customer-raw-data.yaml
określa 2 reguły:
- Pierwsza reguła odnosi się do wymiaru kompletności, np. wartości null.
- Druga reguła odnosi się do wymiaru zgodności, np. wartości nieprawidłowych.
W tym pliku 2 reguły są powiązane z konkretnymi kolumnami tabeli:
- Pierwsze powiązanie łączy regułę notNullExpectation z kolumną id w tabeli contact_info z progiem 100%, co pozwoli sprawdzić, czy kolumna z identyfikatorami nie zawiera wartości null.
- Drugie powiązanie łączy regułę regexExpectation z kolumną email w tabeli contact_info z progiem 85%, co pozwoli sprawdzić, czy adresy e-mail są poprawne.
- Naciśnij
CTRL + X
, a potem wpisz Y
, aby zapisać i zamknąć plik.
Przesyłanie pliku do Cloud Storage
- Uruchom w Cloud Shell to polecenie, aby przesłać plik do zasobnika Cloud Storage:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Utworzenie i przesłanie pliku specyfikacji jakości danych
Zadanie 4. Definiowanie i uruchamianie automatycznego zadania dotyczącego jakości danych w Dataplex
Proces kontroli jakości danych wykorzystuje plik specyfikacji YAML, aby wykonać zadanie dotyczące jakości danych. Na tej podstawie generuje wskaźniki jakości danych zapisywane w zbiorze danych BigQuery.
W tym zadaniu zdefiniujesz i uruchomisz zadanie automatycznej kontroli jakości danych za pomocą pliku specyfikacji YAML w Cloud Storage. Przy definiowaniu zadania wskażesz również zbiór danych customer_dq_dataset jako miejsce do przechowywania wyników kontroli jakości danych.
- Aby utworzyć skan jakości danych, uruchom w Cloud Shell to polecenie:
gcloud dataplex datascans create data-quality customer-orders-data-quality-job \
--project={{{project_0.project_id | Project ID}}} \
--location={{{project_0.default_region | Region}}} \
--data-source-resource="//bigquery.googleapis.com/projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info" \
--data-quality-spec-file="gs://{{{project_0.project_id | Project ID}}}-bucket/dq-customer-raw-data.yaml"
Uwaga: w tym module domyślne konto usługi Compute Engine zostało wstępnie skonfigurowane tak, aby miało odpowiednie role i uprawnienia. Więcej informacji znajdziesz w dokumentacji Dataplex Universal Catalog dotyczącej tworzenia konta usługi.
-
Wróć do konsoli. Nadal powinna być otwarta usługa Dataplex Universal Catalog.
-
W sekcji Zarządzaj kliknij Profilowanie i jakość danych.
-
Kliknij customer-orders-data-quality-job.
-
Kliknij Uruchom teraz.
Uwaga: wykonanie zadania może zająć kilka minut.
Po zakończeniu zadania zauważ, że jego stan to 1 wymiar 1 reguła – niepowodzenie.
- Kliknij Wyświetl wyniki.
Zwróć uwagę, że reguła jakości danych dla kolumny email ma stan Zaliczono, ale dla kolumny id ma stan Niepowodzenie. To normalne, ponieważ:
-
Reguła dla kolumny id to Kontrola wartości NULL
z progiem 100%
. Oznacza to, że aby reguła została spełniona, wszystkie wiersze muszą mieć wartość w kolumnie id. W tym przypadku 10%
wierszy kolumny id w tabeli contact_info zawiera wartości null
. Dlatego ta reguła kończy się niepowodzeniem.
-
Reguła dla kolumny email to Kontrola wyrażenia regularnego
z progiem 85%
. Oznacza to, że reguła zakończy się niepowodzeniem, jeśli 15%
rekordów ma nieprawidłowy format adresu e-mail. W tym przypadku ~10,5%
wierszy w kolumnie email tabeli contact_info zawiera nieprawidłowe adresy e-mail. Dlatego ta reguła jest zaliczona.
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Zdefiniowanie i uruchomienie zadania dotyczącego jakości danych w Dataplex Universal Catalog
Zadanie 5. Przeglądanie wyników kontroli jakości danych w BigQuery
W tym zadaniu przejrzysz tabele w zbiorze danych customers_dq_dataset, aby znaleźć rekordy, w których brakuje wartości identyfikatora klienta lub które zawierają niepoprawny adres e-mail.
-
Wróć do BigQuery i w panelu Eksplorator rozwiń strzałkę przy identyfikatorze projektu, aby wyświetlić zawartość:
-
Kliknij strzałkę rozwijania obok zbioru danych customer_dq_dataset.
-
Kliknij tabelę dq_results.
-
Kliknij kartę Podgląd, aby wyświetlić wyniki.
-
Przewiń do kolumny o nazwie rule_failed_records_query.
-
Skopiuj zapytanie, które zaczyna się od WITH
.
-
Kliknij Zapytanie SQL (+). Skopiuj i wklej zapytanie do edytora SQL, a następnie kliknij Uruchom.
Wyniki zapytania zawierają nieprawidłowe wartości adresów e-mail w tabeli contact_info. Zwróć uwagę na słowo „email” w każdym wpisie w kolumnie dq_validation_column_id.

-
Powtórz kroki 7–8 dla drugiej komórki, która zawiera zapytanie dotyczące wyników reguły VALID_CUSTOMER.
Wyniki zapytania wskazują, że w tabeli contact_info jest 10 rekordów, w których brakuje wartości identyfikatora.

Zwróć uwagę na słowo „id” w każdym wpisie w kolumnie dq_validation_column_id.
Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło.
Przejrzenie wyników jakości danych w tabeli BigQuery
Gratulacje!
Udało Ci się ocenić jakość danych przy użyciu Dataplex Universal Catalog przez utworzenie własnego pliku specyfikacji jakości danych i wykorzystanie go do wykonania zadania dotyczącego jakości danych na tabeli BigQuery.
Szkolenia i certyfikaty Google Cloud
…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.
Ostatnia aktualizacja instrukcji: 2 września 2025 r.
Ostatni test modułu: 2 września 2025 r.
Copyright 2025 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.