arrow_back

Ocenianie jakości danych przy użyciu Dataplex

Zyskaj dostęp do ponad 700 modułów i kursów

Ocenianie jakości danych przy użyciu Dataplex

Moduł 1 godz. 30 godz. universal_currency_alt 1 punkt show_chart Wprowadzające
info Ten moduł może zawierać narzędzia AI, które ułatwią Ci naukę.
Zyskaj dostęp do ponad 700 modułów i kursów

GSP1158

Logo modułów do samodzielnego ukończenia poświęconych Google Cloud

Opis

Dataplex Universal Catalog to inteligentna tkanina danych, która umożliwia organizacjom centralne wykrywanie i monitorowanie danych w jeziorach, hurtowniach i składnicach danych oraz zarządzanie nimi, zapewniając w ten sposób możliwość przeprowadzania analiz na dużą skalę.

Cenną funkcją tkaniny Dataplex Universal Catalog jest możliwość definiowania i przeprowadzania kontroli jakości danych w jej zasobach, takich jak tabele BigQuery i pliki w Cloud Storage. Za pomocą zadań dotyczących jakości danych w Dataplex możesz włączyć kontrole jakości danych w codzienne przepływy pracy przez sprawdzanie poprawności danych wchodzących w skład potoku produkcyjnego, regularne monitorowanie jakości danych pod kątem określonego zestawu kryteriów i tworzenie raportów dotyczących jakości danych na potrzeby spełnienia wymogów prawnych.

W tym module dowiesz się, jak ocenić jakość danych za pomocą Dataplex Universal Catalog. Utworzysz własny plik specyfikacji jakości danych i wykorzystasz go, aby zdefiniować i uruchomić zadanie dotyczące jakości na danych BigQuery.

Jakie zadania wykonasz

  • Utworzysz jezioro danych, strefę i zasob w Dataplex Universal Catalog.
  • Wykonasz zapytania na tabeli BigQuery w celu sprawdzenia jakości danych.
  • Utworzysz i prześlesz plik specyfikacji jakości danych.
  • Zdefiniujesz i uruchomisz zadanie dotyczące jakości danych.
  • Przejrzysz wyniki zadania dotyczącego jakości danych.

Konfiguracja i wymagania

Zanim klikniesz przycisk Rozpocznij moduł

Zapoznaj się z tymi instrukcjami. Moduły mają limit czasowy i nie można ich zatrzymać. Gdy klikniesz Rozpocznij moduł, na liczniku wyświetli się informacja o tym, na jak długo udostępniamy Ci zasoby Google Cloud.

W tym praktycznym module możesz spróbować swoich sił w wykonywaniu opisywanych działań w prawdziwym środowisku chmury, a nie w jego symulacji lub wersji demonstracyjnej. Otrzymasz nowe, tymczasowe dane logowania, dzięki którym zalogujesz się i uzyskasz dostęp do Google Cloud na czas trwania modułu.

Do ukończenia modułu potrzebne będą:

  • Dostęp do standardowej przeglądarki internetowej (zalecamy korzystanie z przeglądarki Chrome).
Uwaga: uruchom ten moduł w oknie incognito (zalecane) lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.
  • Odpowiednia ilość czasu na ukończenie modułu – pamiętaj, że gdy rozpoczniesz, nie możesz go wstrzymać.
Uwaga: w tym module używaj tylko konta do nauki. Jeśli użyjesz innego konta Google Cloud, mogą na nim zostać naliczone opłaty.

Rozpoczynanie modułu i logowanie się w konsoli Google Cloud

  1. Kliknij przycisk Rozpocznij moduł. Jeśli moduł jest odpłatny, otworzy się okno, w którym możesz wybrać formę płatności. Po lewej stronie znajduje się panel Szczegóły modułu z następującymi elementami:

    • przyciskiem Otwórz konsolę Google Cloud;
    • czasem, który Ci pozostał;
    • tymczasowymi danymi logowania, których musisz użyć w tym module;
    • innymi informacjami potrzebnymi do ukończenia modułu.
  2. Kliknij Otwórz konsolę Google Cloud (lub kliknij prawym przyciskiem myszy i wybierz Otwórz link w oknie incognito, jeśli korzystasz z przeglądarki Chrome).

    Moduł uruchomi zasoby, po czym otworzy nową kartę ze stroną logowania.

    Wskazówka: otwórz karty obok siebie w osobnych oknach.

    Uwaga: jeśli pojawi się okno Wybierz konto, kliknij Użyj innego konta.
  3. W razie potrzeby skopiuj nazwę użytkownika znajdującą się poniżej i wklej ją w oknie logowania.

    {{{user_0.username | "Username"}}}

    Nazwę użytkownika znajdziesz też w panelu Szczegóły modułu.

  4. Kliknij Dalej.

  5. Skopiuj podane niżej hasło i wklej je w oknie powitania.

    {{{user_0.password | "Password"}}}

    Hasło znajdziesz też w panelu Szczegóły modułu.

  6. Kliknij Dalej.

    Ważne: musisz użyć danych logowania podanych w module. Nie używaj danych logowania na swoje konto Google Cloud. Uwaga: korzystanie z własnego konta Google Cloud w tym module może wiązać się z dodatkowymi opłatami.
  7. Na kolejnych stronach wykonaj następujące czynności:

    • Zaakceptuj Warunki korzystania z usługi.
    • Nie dodawaj opcji odzyskiwania ani uwierzytelniania dwuskładnikowego (ponieważ konto ma charakter tymczasowy).
    • Nie rejestruj się w bezpłatnych wersjach próbnych.

Poczekaj, aż na karcie otworzy się konsola Google Cloud.

Uwaga: aby uzyskać dostęp do produktów i usług Google Cloud, kliknij Menu nawigacyjne lub wpisz nazwę usługi albo produktu w polu Szukaj. Ikona menu nawigacyjnego i pole wyszukiwania

Aktywowanie Cloud Shell

Cloud Shell to maszyna wirtualna oferująca wiele narzędzi dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud. Dzięki wierszowi poleceń Cloud Shell zyskujesz dostęp do swoich zasobów Google Cloud.

  1. Kliknij Aktywuj Cloud Shell Ikona aktywowania Cloud Shell na górze konsoli Google Cloud.

  2. Kliknij te okna:

    • Przejdź przez okno z informacjami o Cloud Shell.
    • Zezwól Cloud Shell na używanie Twoich danych logowania w celu wywoływania interfejsu Google Cloud API.

Po połączeniu użytkownik od razu jest uwierzytelniony. Uruchomi się Twój projekt o identyfikatorze Project_ID . Dane wyjściowe zawierają wiersz z zadeklarowanym identyfikatorem Project_ID dla tej sesji:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud to narzędzie wiersza poleceń Google Cloud. Jest ono już zainstalowane w Cloud Shell i obsługuje funkcję autouzupełniania po naciśnięciu tabulatora.

  1. (Opcjonalnie) Aby wyświetlić listę aktywnych kont, użyj tego polecenia:
gcloud auth list
  1. Kliknij Autoryzuj.

Dane wyjściowe:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Opcjonalnie) Aby wyświetlić identyfikator projektu, użyj tego polecenia:
gcloud config list project

Dane wyjściowe:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Uwaga: pełną dokumentację gcloud w Google Cloud znajdziesz w opisie gcloud CLI.

Włączanie Dataproc API

  1. Na pasku tytułu w konsoli Google Cloud w polu Szukaj wpisz Cloud Dataproc API, a następnie w wynikach wyszukiwania kliknij Cloud Dataproc API.

  2. W razie potrzeby kliknij Włącz.

Zadanie 1. Tworzenie jeziora danych, strefy i zasobu w Dataplex

Aby zdefiniować i uruchomić zadania dotyczące jakości danych, musisz mieć pewne zasoby Dataplex Universal Catalog.

W tym zadaniu utworzysz nowe jezioro danych Dataplex Universal Catalog na informacje o klientach sklepu internetowego, dodasz do jeziora strefę nieprzetworzoną, a potem dołączysz do strefy gotowy zbiór danych BigQuery jako nowy zasób.

Tworzenie jeziora

  1. W konsoli Google Cloud kliknij Menu nawigacyjne (Menu nawigacyjne) > Wyświetl wszystkie usługi i przejdź do sekcji Analityka > Dataplex Universal Catalog.

Jeśli pojawi się okno Witamy w nowej usłudze Dataplex Universal Catalog, kliknij Zamknij.

  1. W sekcji Zarządzanie jeziorami kliknij Zarządzaj.

  2. Kliknij Utwórz jezioro danych.

  3. Wpisz poniższe informacje potrzebne do utworzenia nowego jeziora. W pozostałych polach pozostaw wartości domyślne:

Właściwość Wartość
Wyświetlana nazwa Ecommerce Lake
Region
  1. Kliknij Utwórz.

Utworzenie jeziora może zająć do 3 minut.

Dodawanie strefy do jeziora

  1. Na karcie Zarządzanie kliknij nazwę jeziora.

  2. Kliknij DODAJ STREFĘ.

  3. Wpisz poniższe informacje potrzebne do utworzenia nowej strefy. W pozostałych polach pozostaw wartości domyślne:

Właściwość Wartość
Wyświetlana nazwa Customer Contact Raw Zone
Typ Strefa nieprzetworzona
Lokalizacje danych Region
  1. Kliknij Utwórz.

Utworzenie strefy może zająć do 2 minut.

Uwaga: następne zadanie możesz wykonać, gdy status strefy będzie Aktywny.

Dołączanie zasobu do strefy

  1. Na karcie Strefy kliknij Customer Contact Raw Zone.

  2. Na karcie Zasoby kliknij Dodaj zasób.

  3. Kliknij Dodaj zasób.

  4. Wpisz poniższe informacje potrzebne do dołączenia nowego zasobu. W pozostałych polach pozostaw wartości domyślne.

Właściwość Wartość
Typ Zbiór danych BigQuery
Wyświetlana nazwa Contact Info
Zbiór danych .customers
  1. Kliknij Gotowe.

  2. Kliknij Dalej.

  3. Ustawieniach wykrywania wybierz Odziedzicz, aby odziedziczyć ustawienia wykrywania z poziomu strefy. Następnie kliknij Dalej.

  4. Kliknij Prześlij.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Utworzenie jeziora danych, strefy i zasobu w Dataplex Universal Catalog

Zadanie 2. Wykonywanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych

W tym module używane są 2 wcześniej utworzone zbiory danych BigQuery:

  • customers: zawiera jedną tabelę o nazwie contact_info, w której znajdują się dane kontaktowe klientów, takie jak identyfikator klienta, jego imię i nazwisko, adres e-mail itp. To tabela, którą w tym module przeanalizujesz i sprawdzisz pod kątem problemów z jakością danych.

  • customers_dq_dataset: nie zawiera żadnych tabel. W późniejszym kroku, przy definiowaniu zadania dotyczącego jakości danych, wykorzystasz ten zbiór danych jako lokalizację docelową dla nowej tabeli z wynikami tego zadania.

W tym zadaniu wykonasz zapytanie na zbiorze danych customers, aby znaleźć problemy z jakością danych, które można będzie włączyć jako poszczególne kontrole w zadanie dotyczące jakości danych. Wskażesz też zbiór danych customers_dq_dataset do zapisywania wyników zadania dotyczącego jakości danych w jednym z późniejszych kroków.

Otwieranie konsoli BigQuery

  1. W konsoli Google Cloud Console kliknij menu nawigacyjne > BigQuery.

Otworzy się okno Witamy w usłudze BigQuery w Cloud Console. Zawiera ono link do krótkiego wprowadzenia oraz informacji o wersji.

  1. Kliknij Gotowe.

Otworzy się konsola BigQuery.

Tworzenie zapytania do tabeli contact_info

  1. W panelu Eksplorator kliknij strzałkę rozwijania obok identyfikatora projektu (), aby wyświetlić zawartość.

Powinny pokazać się 3 zbiory danych:

  • customer_contact_raw_zone
  • customers
  • customers_dq_dataset
  1. W edytorze SQL kliknij Zapytanie SQL (+). Wklej poniższe zapytanie i kliknij Uruchom:
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

To zapytanie wybiera 50 rekordów z oryginalnej tabeli i porządkuje je w wynikach według identyfikatora klienta.

  1. Przewiń wyniki w panelu Wyniki.

    Zauważ, że w niektórych rekordach nie ma identyfikatora klienta lub adres e-mail jest niepoprawny, co może utrudnić zarządzanie zamówieniami klientów.

Niekompletne dane w tabeli contact_info

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Wykonanie zapytania na tabeli BigQuery w celu sprawdzenia jakości danych

Zadanie 3. Tworzenie i przesyłanie pliku specyfikacji jakości danych

Wymagania dotyczące kontroli jakości danych w Dataplex określa się za pomocą plików specyfikacji YAML CloudDQ. Utworzony plik specyfikacji YAML jest przesyłany do zasobnika Cloud Storage, który jest udostępniany zadaniu dotyczącemu jakości danych.

Plik YAML ma 4 kluczowe sekcje:

  • lista reguł do uruchomienia (mogą to być reguły wstępnie zdefiniowane lub dostosowane);
  • filtry wierszy pozwalające wybrać podzbiór danych do sprawdzenia poprawności;
  • powiązania reguł, które umożliwiają zastosowanie zdefiniowanych reguł w tabelach;
  • opcjonalne wymiary reguł, dzięki którym można określić typy reguł dopuszczalne w pliku YAML.

W tym zadaniu zdefiniujesz nowy plik specyfikacji YAML na potrzeby różnych kontroli jakości danych, które wskażą brakujące identyfikatory klienta i adresy e-mail w danej tabeli BigQuery. Wskażesz również utworzony wcześniej zbiór danych BigQuery customer_dq_dataset jako miejsce do przechowywania wyników kontroli jakości danych w tabeli o nazwie dq_results.

Po zdefiniowaniu pliku prześlesz go do utworzonego wcześniej zasobnika Cloud Storage, co pozwoli wykorzystać go później przy uruchamianiu zadania dotyczącego jakości danych.

Tworzenie pliku specyfikacji jakości danych

  1. Aby utworzyć nowy pusty plik na specyfikację jakości danych, uruchom w Cloud Shell to polecenie:
nano dq-customer-raw-data.yaml
  1. Wklej do pliku ten kod:
rules: - nonNullExpectation: {} column: id dimension: COMPLETENESS threshold: 1 - regexExpectation: regex: '^[^@]+[@]{1}[^@]+$' column: email dimension: CONFORMANCE ignoreNull: true threshold: .85 postScanActions: bigqueryExport: resultsTable: projects/{{{project_0.project_id | Project ID}}}/datasets/customers_dq_dataset/tables/dq_results
  1. Przejrzyj kod, aby znaleźć 2 główne reguły dotyczące jakości danych zdefiniowane w tym pliku.

Plik dq-customer-raw-data.yaml określa 2 reguły:

  • Pierwsza reguła odnosi się do wymiaru kompletności, np. wartości null.
  • Druga reguła odnosi się do wymiaru zgodności, np. wartości nieprawidłowych.

W tym pliku 2 reguły są powiązane z konkretnymi kolumnami tabeli:

  • Pierwsze powiązanie łączy regułę notNullExpectation z kolumną id w tabeli contact_info z progiem 100%, co pozwoli sprawdzić, czy kolumna z identyfikatorami nie zawiera wartości null.
  • Drugie powiązanie łączy regułę regexExpectation z kolumną email w tabeli contact_info z progiem 85%, co pozwoli sprawdzić, czy adresy e-mail są poprawne.
  1. Naciśnij CTRL + X, a potem wpisz Y, aby zapisać i zamknąć plik.

Przesyłanie pliku do Cloud Storage

  • Uruchom w Cloud Shell to polecenie, aby przesłać plik do zasobnika Cloud Storage:
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Utworzenie i przesłanie pliku specyfikacji jakości danych

Zadanie 4. Definiowanie i uruchamianie automatycznego zadania dotyczącego jakości danych w Dataplex

Proces kontroli jakości danych wykorzystuje plik specyfikacji YAML, aby wykonać zadanie dotyczące jakości danych. Na tej podstawie generuje wskaźniki jakości danych zapisywane w zbiorze danych BigQuery.

W tym zadaniu zdefiniujesz i uruchomisz zadanie automatycznej kontroli jakości danych za pomocą pliku specyfikacji YAML w Cloud Storage. Przy definiowaniu zadania wskażesz również zbiór danych customer_dq_dataset jako miejsce do przechowywania wyników kontroli jakości danych.

  1. Aby utworzyć skan jakości danych, uruchom w Cloud Shell to polecenie:
gcloud dataplex datascans create data-quality customer-orders-data-quality-job \ --project={{{project_0.project_id | Project ID}}} \ --location={{{project_0.default_region | Region}}} \ --data-source-resource="//bigquery.googleapis.com/projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info" \ --data-quality-spec-file="gs://{{{project_0.project_id | Project ID}}}-bucket/dq-customer-raw-data.yaml" Uwaga: w tym module domyślne konto usługi Compute Engine zostało wstępnie skonfigurowane tak, aby miało odpowiednie role i uprawnienia. Więcej informacji znajdziesz w dokumentacji Dataplex Universal Catalog dotyczącej tworzenia konta usługi.
  1. Wróć do konsoli. Nadal powinna być otwarta usługa Dataplex Universal Catalog.

  2. W sekcji Zarządzaj kliknij Profilowanie i jakość danych.

  3. Kliknij customer-orders-data-quality-job.

  4. Kliknij Uruchom teraz.

Uwaga: wykonanie zadania może zająć kilka minut.

Po zakończeniu zadania zauważ, że jego stan to 1 wymiar 1 reguła – niepowodzenie.

  1. Kliknij Wyświetl wyniki.

Zwróć uwagę, że reguła jakości danych dla kolumny email ma stan Zaliczono, ale dla kolumny id ma stan Niepowodzenie. To normalne, ponieważ:

  • Reguła dla kolumny id to Kontrola wartości NULL z progiem 100%. Oznacza to, że aby reguła została spełniona, wszystkie wiersze muszą mieć wartość w kolumnie id. W tym przypadku 10% wierszy kolumny id w tabeli contact_info zawiera wartości null. Dlatego ta reguła kończy się niepowodzeniem.

  • Reguła dla kolumny email to Kontrola wyrażenia regularnego z progiem 85%. Oznacza to, że reguła zakończy się niepowodzeniem, jeśli 15% rekordów ma nieprawidłowy format adresu e-mail. W tym przypadku ~10,5% wierszy w kolumnie email tabeli contact_info zawiera nieprawidłowe adresy e-mail. Dlatego ta reguła jest zaliczona.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Zdefiniowanie i uruchomienie zadania dotyczącego jakości danych w Dataplex Universal Catalog

Zadanie 5. Przeglądanie wyników kontroli jakości danych w BigQuery

W tym zadaniu przejrzysz tabele w zbiorze danych customers_dq_dataset, aby znaleźć rekordy, w których brakuje wartości identyfikatora klienta lub które zawierają niepoprawny adres e-mail.

  1. Wróć do BigQuery i w panelu Eksplorator rozwiń strzałkę przy identyfikatorze projektu, aby wyświetlić zawartość:

  2. Kliknij strzałkę rozwijania obok zbioru danych customer_dq_dataset.

  3. Kliknij tabelę dq_results.

  4. Kliknij kartę Podgląd, aby wyświetlić wyniki.

  5. Przewiń do kolumny o nazwie rule_failed_records_query.

  6. Skopiuj zapytanie, które zaczyna się od WITH.

  7. Kliknij Zapytanie SQL (+). Skopiuj i wklej zapytanie do edytora SQL, a następnie kliknij Uruchom.

    Wyniki zapytania zawierają nieprawidłowe wartości adresów e-mail w tabeli contact_info. Zwróć uwagę na słowo „email” w każdym wpisie w kolumnie dq_validation_column_id.

    Wyniki jakości danych dla reguły VALID_EMAIL

  8. Powtórz kroki 7–8 dla drugiej komórki, która zawiera zapytanie dotyczące wyników reguły VALID_CUSTOMER.

    Wyniki zapytania wskazują, że w tabeli contact_info jest 10 rekordów, w których brakuje wartości identyfikatora.

    Wyniki jakości danych dla reguły VALID_CUSTOMER

    Zwróć uwagę na słowo „id” w każdym wpisie w kolumnie dq_validation_column_id.

Kliknij Sprawdź postępy, aby zobaczyć, jak Ci poszło. Przejrzenie wyników jakości danych w tabeli BigQuery

Gratulacje!

Udało Ci się ocenić jakość danych przy użyciu Dataplex Universal Catalog przez utworzenie własnego pliku specyfikacji jakości danych i wykorzystanie go do wykonania zadania dotyczącego jakości danych na tabeli BigQuery.

Szkolenia i certyfikaty Google Cloud

…pomogą Ci wykorzystać wszystkie możliwości technologii Google Cloud. Nasze zajęcia obejmują umiejętności techniczne oraz sprawdzone metody, które ułatwią Ci szybką naukę i umożliwią jej kontynuację. Oferujemy szkolenia na poziomach od podstawowego po zaawansowany prowadzone w trybach wirtualnym, na żądanie i na żywo, dzięki czemu możesz dopasować program szkoleń do swojego napiętego harmonogramu. Certyfikaty umożliwią udokumentowanie i potwierdzenie Twoich umiejętności oraz doświadczenia w zakresie technologii Google Cloud.

Ostatnia aktualizacja instrukcji: 2 września 2025 r.

Ostatni test modułu: 2 września 2025 r.

Copyright 2025 Google LLC. Wszelkie prawa zastrzeżone. Google i logo Google są znakami towarowymi Google LLC. Wszelkie inne nazwy firm i produktów mogą być znakami towarowymi odpowiednich podmiotów, z którymi są powiązane.

Zanim zaczniesz

  1. Moduły tworzą projekt Google Cloud i zasoby na określony czas.
  2. Moduły mają ograniczenie czasowe i nie mają funkcji wstrzymywania. Jeśli zakończysz moduł, musisz go zacząć od początku.
  3. Aby rozpocząć, w lewym górnym rogu ekranu kliknij Rozpocznij moduł.

Użyj przeglądania prywatnego

  1. Skopiuj podaną nazwę użytkownika i hasło do modułu.
  2. Kliknij Otwórz konsolę w trybie prywatnym.

Zaloguj się w konsoli

  1. Zaloguj się z użyciem danych logowania do modułu. Użycie innych danych logowania może spowodować błędy lub naliczanie opłat.
  2. Zaakceptuj warunki i pomiń stronę zasobów przywracania.
  3. Nie klikaj Zakończ moduł, chyba że właśnie został przez Ciebie zakończony lub chcesz go uruchomić ponownie, ponieważ spowoduje to usunięcie wyników i projektu.

Ta treść jest obecnie niedostępna

Kiedy dostępność się zmieni, wyślemy Ci e-maila z powiadomieniem

Świetnie

Kiedy dostępność się zmieni, skontaktujemy się z Tobą e-mailem

Jeden moduł, a potem drugi

Potwierdź, aby zakończyć wszystkie istniejące moduły i rozpocząć ten

Aby uruchomić moduł, użyj przeglądania prywatnego

Uruchom ten moduł w oknie incognito lub przeglądania prywatnego. Dzięki temu unikniesz konfliktu między swoim kontem osobistym a kontem do nauki, co mogłoby spowodować naliczanie dodatkowych opłat na koncie osobistym.