arrow_back

Перевірка якості даних у Dataplex

Get access to 700+ labs and courses

Перевірка якості даних у Dataplex

Lab 1 година 30 годин universal_currency_alt 1 кредит show_chart Початковий
info This lab may incorporate AI tools to support your learning.
Get access to 700+ labs and courses

GSP1158

Логотип Google Cloud Self-Paced Labs

Огляд

Dataplex Universal Catalog – це інтелектуальна структура даних, завдяки якій організації можуть централізовано шукати, контролювати й відстежувати дані в озерах, сховищах і вітринах із метою аналізу у великих масштабах.

Цей сервіс дає змогу налаштовувати й запускати перевірки якості даних для об’єктів Dataplex Universal Catalog, зокрема таблиць BigQuery й файлів Cloud Storage. За допомогою завдань Dataplex можна інтегрувати перевірку якості даних у повсякденні робочі процеси, зокрема перевіряти дані, які є частиною виробничого конвеєра, регулярно відстежувати їх якість на основі низки критеріїв і створювати звіти, щоб дотримуватися нормативних вимог.

Під час цього практичного заняття ви навчитеся перевіряти якість даних за допомогою Dataplex Universal Catalog. Для цього ви створите власний файл зі специфікацією, на основі якого налаштуєте завдання з перевірки якості даних, а потім виконаєте його для даних BigQuery.

Завдання

  • Створіть озеро, зону й об’єкт Dataplex Universal Catalog.
  • Виконайте запит до таблиці BigQuery, щоб перевірити якість даних.
  • Створіть і завантажте файл зі специфікацією якості даних.
  • Налаштуйте й запустіть завдання з перевірки якості даних.
  • Перегляньте результати перевірки якості даних.

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Для цього практичного заняття потрібно мати:

  • стандартний вебпереглядач, наприклад Chrome (рекомендовано);
Примітка. Виконуйте практичне заняття в анонімному вікні вебпереглядача (рекомендовано). Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його помилкового використання замість облікового запису для навчання.
  • достатню кількість часу, оскільки почавши практичне заняття, ви не зможете призупинити його.
Примітка. Для виконання цього практичного заняття використовуйте лише обліковий запис для навчання, оскільки з іншого облікового запису Google Cloud може стягуватися плата.

Як почати виконувати практичну роботу й увійти в Google Cloud Console

  1. Натисніть кнопку Start Lab (Почати практичне заняття). Якщо за практичне заняття необхідно заплатити, відкриється вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель "Відомості про практичне заняття" з такими компонентами:

    • кнопка "Відкрити консоль Google";
    • час до закінчення;
    • тимчасові облікові дані, які потрібно використовувати для доступу до цього практичного заняття;
    • інша інформація, необхідна для виконання цього практичного заняття.
  2. Натисніть Відкрити консоль Google або натисніть правою кнопкою миші й виберіть Відкрити анонімне вікно, якщо ви використовуєте вебпереглядач Chrome.

    Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою "Увійти".

    Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.

    Примітка. Якщо з’явиться вікно Виберіть обліковий запис, натисніть Вибрати інший обліковий запис.
  3. За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Вхід.

    {{{user_0.username | "Username"}}}

    Поле "Ім’я користувача" також можна знайти на панелі "Відомості про практичне заняття".

  4. Натисніть Далі.

  5. Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).

    {{{user_0.password | "Password"}}}

    Поле "Пароль" також можна знайти на панелі "Відомості про практичне заняття".

  6. Натисніть Далі.

    Важливо. Обов’язково використовуйте облікові дані, призначені для відповідного практичного заняття. Не використовуйте облікові дані Google Cloud. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата.
  7. Що від вас очікується

    • Прийміть Умови використання.
    • Не додавайте способи відновлення й двохетапну перевірку (оскільки це тимчасовий обліковий запис).
    • Не реєструйте безкоштовні пробні версії.

Через кілька секунд консоль Google Cloud відкриється в новій вкладці.

Примітка. Щоб отримати доступ до продуктів і сервісів Google Cloud, натисніть меню навігації або введіть назву сервісу чи продукту в полі пошуку. Значок меню навігації і поле пошуку

Як активувати Cloud Shell

Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.

  1. Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) Значок активації Cloud Shell.

  2. У вікнах, що відкриються, виконайте наведені нижче дії.

    • У вікні з інформацією про Cloud Shell натисніть Continue (Далі).
    • Дозвольте Cloud Shell використовувати ваші облікові дані, щоб здійснювати виклики Google Cloud API.

Щойно ви підключитеся, вас буде автентифіковано, а проєкт отримає ваш Project_ID (Ідентифікатор проєкту). Вивід міститиме рядок зі значенням Project_ID (Ідентифікатор проєкту) для цього сеансу:

Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}

gcloud – це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.

  1. (Необов’язково) Щоб вивести поточне ім’я облікового запису, введіть таку команду:
gcloud auth list
  1. Натисніть Authorize (Авторизувати).

Вивід:

ACTIVE: * ACCOUNT: {{{user_0.username | "ACCOUNT"}}} To set the active account, run: $ gcloud config set account `ACCOUNT`
  1. (Необов’язково) Щоб вивести ідентифікатор проєкту, введіть таку команду:
gcloud config list project

Вивід:

[core] project = {{{project_0.project_id | "PROJECT_ID"}}} Примітка. Щоб знайти повну документацію щодо gcloud, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.

Увімкніть Dataproc API

  1. На панелі заголовка консолі Google Cloud введіть Cloud Dataproc API у полі Search (Пошук), а потім натисніть Cloud Dataproc API у результатах пошуку.

  2. Натисніть Enable (Увімкнути), якщо API ще не ввімкнено.

Завдання 1. Створіть озеро, зону й об’єкт Dataplex

Щоб налаштувати й виконати завдання з перевірки якості даних, вам знадобляться деякі ресурси Dataplex Universal Catalog.

У цьому завданні ви створите нове озеро даних Dataplex Universal Catalog для зберігання інформації про клієнтів електронної комерції, додасте до озера необроблену зону, а потім долучите до неї попередньо створений набір даних BigQuery як новий об’єкт.

Створіть озеро даних

  1. У меню навігації (Меню навігації) консолі Google Cloud натисніть View all products (Переглянути всі продукти) > Analytics (Аналітика) > Dataplex Universal Catalog.

Якщо з’явиться запит Welcome to the new Dataplex Universal Catalog experience (Вітаємо в новому інтерфейсі Dataplex Universal Catalog), натисніть Close (Закрити).

  1. У розділі Manage lakes (Керувати озерами даних) натисніть Manage (Керувати).

  2. Виберіть Create lake (Створити озеро даних).

  3. Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.

Властивість Значення
Display Name (Відображувана назва) Ecommerce Lake (Озеро даних електронної комерції)
Region (Регіон)
  1. Натисніть Create (Створити).

Озеро даних буде створено протягом 3 хвилин.

Додайте зону в озеро даних

  1. Натисніть назву потрібного озера на вкладці Manage (Керувати).

  2. Виберіть ADD ZONE (ДОДАТИ ЗОНУ).

  3. Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.

Властивість Значення
Display Name (Відображувана назва) Customer Contact Raw Zone (Необроблена зона з контактною інформацією клієнтів)
Type (Тип) Raw zone (Необроблена зона)
Data locations (Місцезнаходження даних) Regional (Регіональне)
  1. Натисніть Create (Створити).

Зону буде створено протягом 2 хвилин.

Примітка. Коли статус зони зміниться на Active (Активна), перейдіть до наступного завдання.

Додайте об’єкт у зону

  1. На вкладці Zones (Зони) натисніть Customer Contact Raw Zone (Необроблена зона з контактною інформацією клієнтів).

  2. Виберіть Add Asset (Додати об’єкт) на вкладці Assets (Об’єкти).

  3. Натисніть Add an asset (Додати об’єкт).

  4. Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.

Властивість Значення
Type (Тип) BigQuery dataset (Набір даних BigQuery)
Display Name (Відображувана назва) Contact Info (Контактна інформація)
Dataset (Набір даних) .customers
  1. Натисніть Done (Готово).

  2. Натисніть Continue (Продовжити).

  3. У розділі Discovery settings (Налаштування пошуку) виберіть параметр Inherit (Успадкувати), щоб об’єкт успадкував налаштування пошуку на рівні зони, а потім натисніть Continue (Продовжити).

  4. Натисніть Submit (Надіслати).

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Створіть озеро, зону й об’єкт Dataplex Universal Catalog.

Завдання 2. Виконайте запит до таблиці BigQuery, щоб перевірити якість даних

У цьому практичному занятті використовуються два попередньо створені набори даних BigQuery.

  • customers: містить одну таблицю під назвою contact_info, яка включає контактну інформацію клієнтів, зокрема ідентифікатор, ім’я, електронну адресу тощо. Під час практичного заняття ви перевірите цю таблицю на наявність проблем із якістю даних.

  • customers_dq_dataset: не містить таблиць. Налаштовуючи завдання з перевірки якості даних в одному з наступних завдань, ви використовуватимете цей набір даних, щоб зберегти нову таблицю з його результатами.

На цьому етапі ви виконаєте запит до набору даних customers, щоб виявити проблеми з якістю даних, які пізніше можна буде включити в завдання з перевірки як критерії. Ви також укажете набір даних customers_dq_dataset, щоб зберегти результати перевірки якості даних в одному з наступних завдань.

Як відкрити консоль BigQuery

  1. У Google Cloud Console виберіть меню навігації > BigQuery.

Відкриється повідомлення Welcome to BigQuery in the Cloud Console (Вітаємо в BigQuery в Cloud Console). Це повідомлення містить посилання на короткий посібник і примітки до випуску.

  1. Натисніть Done (Готово).

Відкриється консоль BigQuery.

Виконайте запит до таблиці contact_info

  1. На панелі Explorer (Провідник) натисніть стрілку поруч з ідентифікатором потрібного проєкту (), щоб показати докладні відомості.

Ви побачите три набори даних:

  • customer_contact_raw_zone
  • customers
  • customers_dq_dataset
  1. У Редакторі SQL натисніть SQL query (Запит SQL) (+), вставте наведений нижче запит і натисніть Run (Виконати).
SELECT * FROM `{{{project_0.project_id}}}.customers.contact_info` ORDER BY id LIMIT 50

Цей запит вибере з вихідної таблиці 50 записів, упорядкує їх за ідентифікатором клієнта й виведе результат.

  1. Перегляньте результати на панелі Results (Результати).

    Зверніть увагу, що деякі записи не містять ідентифікаторів клієнтів або в них указано неправильні електронні адреси. Це може спричинити труднощі з керуванням замовленнями.

Неповні дані в таблиці contact-info

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Виконайте запит до таблиці BigQuery, щоб перевірити якість даних

Завдання 3. Створіть і завантажте файл зі специфікацією якості даних

У Dataplex вимоги для перевірки якості даних можна визначити за допомогою файлів YAML у CloudDQ, які містять відповідну специфікацію. Для цього файл YAML потрібно завантажити в сегмент Cloud Storage і надати доступ до нього в завданні з перевірки якості даних.

Файл YAML має чотири основні розділи:

  • список стандартних або налаштованих правил, які потрібно виконати;
  • фільтри рядків, що дають змогу вибрати підмножину даних для перевірки;
  • прив’язки правил, які застосовують визначені правила до таблиць;
  • необов’язкові параметри правил, завдяки яким можна вказати, які типи правил може містити файл YAML.

У цьому завданні ви створите новий файл YAML зі специфікацією для перевірки якості даних, щоб знайти відсутні ідентифікатори клієнтів і недійсні електронні адреси в таблиці BigQuery. Ви також укажете, що результати перевірки слід зберегти в попередньо створеному наборі даних BigQuery під назвою customer_dq_dataset у таблиці dq_results.

Налаштувавши його, ви завантажите цей файл у попередньо створений сегмент Cloud Storage, щоб скористатися ним пізніше під час виконання перевірки якості даних.

Створіть файл зі специфікацією якості даних

  1. Виконайте наведену нижче команду в Cloud Shell, щоб створити новий порожній файл для специфікації якості даних.
nano dq-customer-raw-data.yaml
  1. Вставте наведений нижче код у файл.
rules: - nonNullExpectation: {} column: id dimension: COMPLETENESS threshold: 1 - regexExpectation: regex: '^[^@]+[@]{1}[^@]+$' column: email dimension: CONFORMANCE ignoreNull: true threshold: .85 postScanActions: bigqueryExport: resultsTable: projects/{{{project_0.project_id | Project ID}}}/datasets/customers_dq_dataset/tables/dq_results
  1. Перегляньте цей код, щоб дізнатись, які два основні правила для перевірки якості даних налаштовано в цьому файлі.

Файл dq-customer-raw-data.yaml містить два правила.

  • Перше правило стосується повноти даних, тобто перевіряє, чи значення присутні.
  • Друге правило стосується відповідності даних і перевіряє, чи значення дійсні.

У цьому файлі два правила прив’язано до певних стовпців таблиці.

  • Перша прив’язка застосовує правило notNullExpectation до стовпця id в таблиці contact_info з пороговим значенням 100%. Це правило перевірятиме, чи містить стовпець id значення null.
  • Друга прив’язка застосовує правило regexExpectation до стовпця email у таблиці contact_info з пороговим значенням 85%. Це правило перевірятиме, чи є електронні адреси в цьому стовпці дійсними.
  1. Щоб зберегти зміни й закрити файл, натисніть Ctrl + X, а потім – Y.

Завантажте файл у Cloud Storage

  • Виконайте наведену нижче команду в Cloud Shell, щоб завантажити файл у сегмент Cloud Storage.
gsutil cp dq-customer-raw-data.yaml gs://{{{project_0.project_id | Project ID}}}-bucket

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Створіть і завантажте файл зі специфікацією якості даних

Завдання 4. Налаштуйте й запустіть завдання з автоматичної перевірки якості даних у Dataplex

Щоб перевірити якість даних, потрібно виконати завдання, налаштоване за допомогою файлу YAML зі специфікацією. Коли завдання виконається, показники якості даних буде записано в набір даних BigQuery.

На цьому етапі ви налаштуєте й виконаєте завдання з автоматичної перевірки якості даних, скориставшись файлом YAML зі специфікацією, який завантажили в Cloud Storage. Під час налаштування вам також потрібно буде вказати, що результати перевірки слід зберегти в наборі даних customer_dq_dataset.

  1. Щоб створити перевірку якості даних, виконайте наведену нижче команду в Cloud Shell.
gcloud dataplex datascans create data-quality customer-orders-data-quality-job \ --project={{{project_0.project_id | Project ID}}} \ --location={{{project_0.default_region | Region}}} \ --data-source-resource="//bigquery.googleapis.com/projects/{{{project_0.project_id | Project ID}}}/datasets/customers/tables/contact_info" \ --data-quality-spec-file="gs://{{{project_0.project_id | Project ID}}}-bucket/dq-customer-raw-data.yaml" Примітка. У цьому практичному занятті для сервісного облікового запису Compute Engine за умовчанням попередньо налаштовано відповідні ролі й дозволи IAM. Щоб дізнатися більше, перегляньте розділ Create a service account (Як створити сервісний обліковий запис) у документації Dataplex Universal Catalog.
  1. Поверніться в консоль. Ви маєте перебувати в Dataplex Universal Catalog.

  2. У розділі Govern (Керування) натисніть Data profiling & quality (Профілювання і якість даних).

  3. Натисніть customer-orders-data-quality-job.

  4. Натисніть Run Now (Виконати).

Примітка. Виконання завдання може зайняти кілька хвилин.

Коли завдання буде виконано, ви побачите, що його статус – 1 dimension 1 rule failed (Умов не дотримано: 1 параметр, 1 правило).

  1. Натисніть View results (Переглянути результати).

Зверніть увагу, що правило якості даних для стовпця email має статус Passed (Умов дотримано), а для стовпця idFailed (Умов не дотримано). Нижче наведено пояснення.

  • Правило для стовпця id призначене для перевірки на наявність значень null (Null Check) з пороговим значенням 100%. Це означає, що для дотримання умов правила всі рядки повинні мати значення в стовпці id. У цьому випадку 10% рядків стовпця id таблиці contact_info містять значення null. Тому це правило отримує статус Failed (Умов не дотримано).

  • Правило для стовпця email призначене для перевірки регулярного виразу (Regex Check) з пороговим значенням 85%. Це означає, що умов правила не буде дотримано, якщо 15% записів міститимуть недійсні електронні адреси. У цьому випадку приблизно 10,5% рядків стовпця email у таблиці contact_info містять недійсні електронні адреси. Тому це правило отримує статус Passed (Умов дотримано).

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Налаштуйте й запустіть завдання з перевірки якості даних у Dataplex Universal Catalog.

Завдання 5. Перегляньте результати перевірки якості даних у BigQuery

У цьому завданні вам потрібно перевірити таблиці в наборі даних customers_dq_dataset, щоб визначити, які записи не містять ідентифікаторів клієнтів або містять недійсні електронні адреси.

  1. Поверніться в BigQuery і на панелі Explorer (Провідник) натисніть стрілку поруч з ідентифікатором потрібного проєкту, щоб показати докладні відомості.

  2. Натисніть стрілку біля набору даних customer_dq_dataset.

  3. Натисніть таблицю dq_results.

  4. Щоб переглянути результати, натисніть вкладку Preview (Попередній перегляд).

  5. Прокрутіть сторінку до стовпця під назвою rule_failed_records_query.

  6. Скопіюйте запит, який починається з WITH.

  7. Натисніть SQL query (Запит SQL) (+), скопіюйте й вставте запит у Редакторі SQL, а потім натисніть Run (Виконати).

    У результатах запиту показуватиметься, які електронні адреси в таблиці contact_info не є дійсними. Зверніть увагу на слово "email" у кожному записі стовпця dq_validation_column_id.

    Результати перевірки якості даних для правила VALID_EMAIL

  8. Повторіть кроки 7–8 у другій клітинці, яка містить запит для результатів правила VALID_CUSTOMER.

    Згідно з результатами цього запиту, 10 записів у таблиці contact_info не містять ідентифікаторів.

    Результати перевірки якості даних для правила VALID_CUSTOMER

    Зверніть увагу на слово "id" в кожному записі стовпця dq_validation_column_id.

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Перегляньте результати перевірки якості даних у таблиці BigQuery

Вітаємо!

Ви перевірили якість даних за допомогою Dataplex Universal Catalog, створивши власний файл зі специфікацією, на основі якого налаштували завдання з перевірки якості даних, а потім виконали його для таблиці BigQuery.

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 2 вересня 2025 року

Практичне заняття востаннє протестовано 2 вересня 2025 року

© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

Use private browsing

  1. Copy the provided Username and Password for the lab
  2. Click Open console in private mode

Sign in to the Console

  1. Sign in using your lab credentials. Using other credentials might cause errors or incur charges.
  2. Accept the terms, and skip the recovery resource page
  3. Don't click End lab unless you've finished the lab or want to restart it, as it will clear your work and remove the project

This content is not currently available

We will notify you via email when it becomes available

Great!

We will contact you via email if it becomes available

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.