
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Create a lake, zone, and asset
/ 20
Query BigQuery table to review data quality
/ 20
Create and upload a data quality specification file
/ 20
Define and run a data quality job
/ 20
Review data quality results in BigQuery
/ 20
Dataplex Universal Catalog – це інтелектуальна структура даних, завдяки якій організації можуть централізовано шукати, контролювати й відстежувати дані в озерах, сховищах і вітринах із метою аналізу у великих масштабах.
Цей сервіс дає змогу налаштовувати й запускати перевірки якості даних для об’єктів Dataplex Universal Catalog, зокрема таблиць BigQuery й файлів Cloud Storage. За допомогою завдань Dataplex можна інтегрувати перевірку якості даних у повсякденні робочі процеси, зокрема перевіряти дані, які є частиною виробничого конвеєра, регулярно відстежувати їх якість на основі низки критеріїв і створювати звіти, щоб дотримуватися нормативних вимог.
Під час цього практичного заняття ви навчитеся перевіряти якість даних за допомогою Dataplex Universal Catalog. Для цього ви створите власний файл зі специфікацією, на основі якого налаштуєте завдання з перевірки якості даних, а потім виконаєте його для даних BigQuery.
Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Для цього практичного заняття потрібно мати:
Натисніть кнопку Start Lab (Почати практичне заняття). Якщо за практичне заняття необхідно заплатити, відкриється вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель "Відомості про практичне заняття" з такими компонентами:
Натисніть Відкрити консоль Google або натисніть правою кнопкою миші й виберіть Відкрити анонімне вікно, якщо ви використовуєте вебпереглядач Chrome.
Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою "Увійти".
Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.
За потреби скопіюйте значення в полі Username (Ім’я користувача) нижче й вставте його у вікні Вхід.
Поле "Ім’я користувача" також можна знайти на панелі "Відомості про практичне заняття".
Натисніть Далі.
Скопіюйте значення в полі Password (Пароль) нижче й вставте його у вікні Welcome (Привітання).
Поле "Пароль" також можна знайти на панелі "Відомості про практичне заняття".
Натисніть Далі.
Що від вас очікується
Через кілька секунд консоль Google Cloud відкриється в новій вкладці.
Cloud Shell – це віртуальна машина з попередньо завантаженими інструментами для розробників. Вона містить головний каталог обсягом 5 ГБ постійної пам’яті й працює в середовищі Google Cloud. Cloud Shell надає доступ до ресурсів Google Cloud через командний рядок.
Угорі консолі Google Cloud натисніть Activate Cloud Shell (Активувати Cloud Shell) .
У вікнах, що відкриються, виконайте наведені нижче дії.
Щойно ви підключитеся, вас буде автентифіковано, а проєкт отримає ваш Project_ID (Ідентифікатор проєкту) –
gcloud
– це інструмент командного рядка для Google Cloud. Він входить у пакет Cloud Shell і підтримує функцію автозавершення клавішею TAB.
Вивід:
Вивід:
gcloud
, перегляньте посібник з інтерфейсу командного рядка gcloud у Google Cloud.
На панелі заголовка консолі Google Cloud введіть Cloud Dataproc API у полі Search (Пошук), а потім натисніть Cloud Dataproc API у результатах пошуку.
Натисніть Enable (Увімкнути), якщо API ще не ввімкнено.
Щоб налаштувати й виконати завдання з перевірки якості даних, вам знадобляться деякі ресурси Dataplex Universal Catalog.
У цьому завданні ви створите нове озеро даних Dataplex Universal Catalog для зберігання інформації про клієнтів електронної комерції, додасте до озера необроблену зону, а потім долучите до неї попередньо створений набір даних BigQuery як новий об’єкт.
Якщо з’явиться запит Welcome to the new Dataplex Universal Catalog experience (Вітаємо в новому інтерфейсі Dataplex Universal Catalog)
, натисніть Close (Закрити).
У розділі Manage lakes (Керувати озерами даних) натисніть Manage (Керувати).
Виберіть Create lake (Створити озеро даних).
Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.
Властивість | Значення |
---|---|
Display Name (Відображувана назва) |
Ecommerce Lake (Озеро даних електронної комерції) |
Region (Регіон) |
Озеро даних буде створено протягом 3 хвилин.
Натисніть назву потрібного озера на вкладці Manage (Керувати).
Виберіть ADD ZONE (ДОДАТИ ЗОНУ).
Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.
Властивість | Значення |
---|---|
Display Name (Відображувана назва) | Customer Contact Raw Zone (Необроблена зона з контактною інформацією клієнтів) |
Type (Тип) | Raw zone (Необроблена зона) |
Data locations (Місцезнаходження даних) | Regional (Регіональне) |
Зону буде створено протягом 2 хвилин.
На вкладці Zones (Зони) натисніть Customer Contact Raw Zone (Необроблена зона з контактною інформацією клієнтів).
Виберіть Add Asset (Додати об’єкт) на вкладці Assets (Об’єкти).
Натисніть Add an asset (Додати об’єкт).
Введіть необхідну інформацію, наведену нижче. У решті полів залиште значення за умовчанням.
Властивість | Значення |
---|---|
Type (Тип) | BigQuery dataset (Набір даних BigQuery) |
Display Name (Відображувана назва) | Contact Info (Контактна інформація) |
Dataset (Набір даних) |
Натисніть Done (Готово).
Натисніть Continue (Продовжити).
У розділі Discovery settings (Налаштування пошуку) виберіть параметр Inherit (Успадкувати), щоб об’єкт успадкував налаштування пошуку на рівні зони, а потім натисніть Continue (Продовжити).
Натисніть Submit (Надіслати).
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
У цьому практичному занятті використовуються два попередньо створені набори даних BigQuery.
customers: містить одну таблицю під назвою contact_info, яка включає контактну інформацію клієнтів, зокрема ідентифікатор, ім’я, електронну адресу тощо. Під час практичного заняття ви перевірите цю таблицю на наявність проблем із якістю даних.
customers_dq_dataset: не містить таблиць. Налаштовуючи завдання з перевірки якості даних в одному з наступних завдань, ви використовуватимете цей набір даних, щоб зберегти нову таблицю з його результатами.
На цьому етапі ви виконаєте запит до набору даних customers, щоб виявити проблеми з якістю даних, які пізніше можна буде включити в завдання з перевірки як критерії. Ви також укажете набір даних customers_dq_dataset, щоб зберегти результати перевірки якості даних в одному з наступних завдань.
Відкриється повідомлення Welcome to BigQuery in the Cloud Console (Вітаємо в BigQuery в Cloud Console). Це повідомлення містить посилання на короткий посібник і примітки до випуску.
Відкриється консоль BigQuery.
Ви побачите три набори даних:
Цей запит вибере з вихідної таблиці 50 записів, упорядкує їх за ідентифікатором клієнта й виведе результат.
Перегляньте результати на панелі Results (Результати).
Зверніть увагу, що деякі записи не містять ідентифікаторів клієнтів або в них указано неправильні електронні адреси. Це може спричинити труднощі з керуванням замовленнями.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
У Dataplex вимоги для перевірки якості даних можна визначити за допомогою файлів YAML у CloudDQ, які містять відповідну специфікацію. Для цього файл YAML потрібно завантажити в сегмент Cloud Storage і надати доступ до нього в завданні з перевірки якості даних.
Файл YAML має чотири основні розділи:
У цьому завданні ви створите новий файл YAML зі специфікацією для перевірки якості даних, щоб знайти відсутні ідентифікатори клієнтів і недійсні електронні адреси в таблиці BigQuery. Ви також укажете, що результати перевірки слід зберегти в попередньо створеному наборі даних BigQuery під назвою customer_dq_dataset у таблиці dq_results.
Налаштувавши його, ви завантажите цей файл у попередньо створений сегмент Cloud Storage, щоб скористатися ним пізніше під час виконання перевірки якості даних.
Файл dq-customer-raw-data.yaml
містить два правила.
У цьому файлі два правила прив’язано до певних стовпців таблиці.
Ctrl + X
, а потім – Y
.Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Щоб перевірити якість даних, потрібно виконати завдання, налаштоване за допомогою файлу YAML зі специфікацією. Коли завдання виконається, показники якості даних буде записано в набір даних BigQuery.
На цьому етапі ви налаштуєте й виконаєте завдання з автоматичної перевірки якості даних, скориставшись файлом YAML зі специфікацією, який завантажили в Cloud Storage. Під час налаштування вам також потрібно буде вказати, що результати перевірки слід зберегти в наборі даних customer_dq_dataset.
Поверніться в консоль. Ви маєте перебувати в Dataplex Universal Catalog.
У розділі Govern (Керування) натисніть Data profiling & quality (Профілювання і якість даних).
Натисніть customer-orders-data-quality-job.
Натисніть Run Now (Виконати).
Коли завдання буде виконано, ви побачите, що його статус – 1 dimension 1 rule failed (Умов не дотримано: 1 параметр, 1 правило).
Зверніть увагу, що правило якості даних для стовпця email має статус Passed (Умов дотримано), а для стовпця id – Failed (Умов не дотримано). Нижче наведено пояснення.
Правило для стовпця id призначене для перевірки на наявність значень null (Null Check
) з пороговим значенням 100%
. Це означає, що для дотримання умов правила всі рядки повинні мати значення в стовпці id. У цьому випадку 10%
рядків стовпця id таблиці contact_info містять значення null
. Тому це правило отримує статус Failed (Умов не дотримано).
Правило для стовпця email призначене для перевірки регулярного виразу (Regex Check
) з пороговим значенням 85%
. Це означає, що умов правила не буде дотримано, якщо 15%
записів міститимуть недійсні електронні адреси. У цьому випадку приблизно 10,5%
рядків стовпця email у таблиці contact_info містять недійсні електронні адреси. Тому це правило отримує статус Passed (Умов дотримано).
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
У цьому завданні вам потрібно перевірити таблиці в наборі даних customers_dq_dataset, щоб визначити, які записи не містять ідентифікаторів клієнтів або містять недійсні електронні адреси.
Поверніться в BigQuery і на панелі Explorer (Провідник) натисніть стрілку поруч з ідентифікатором потрібного проєкту, щоб показати докладні відомості.
Натисніть стрілку біля набору даних customer_dq_dataset.
Натисніть таблицю dq_results.
Щоб переглянути результати, натисніть вкладку Preview (Попередній перегляд).
Прокрутіть сторінку до стовпця під назвою rule_failed_records_query.
Скопіюйте запит, який починається з WITH
.
Натисніть SQL query (Запит SQL) (+), скопіюйте й вставте запит у Редакторі SQL, а потім натисніть Run (Виконати).
У результатах запиту показуватиметься, які електронні адреси в таблиці contact_info не є дійсними. Зверніть увагу на слово "email" у кожному записі стовпця dq_validation_column_id.
Повторіть кроки 7–8 у другій клітинці, яка містить запит для результатів правила VALID_CUSTOMER.
Згідно з результатами цього запиту, 10 записів у таблиці contact_info не містять ідентифікаторів.
Зверніть увагу на слово "id" в кожному записі стовпця dq_validation_column_id.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Ви перевірили якість даних за допомогою Dataplex Universal Catalog, створивши власний файл зі специфікацією, на основі якого налаштували завдання з перевірки якості даних, а потім виконали його для таблиці BigQuery.
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 2 вересня 2025 року
Практичне заняття востаннє протестовано 2 вересня 2025 року
© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one