arrow_back

Dataprep: Qwik Start

Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Dataprep: Qwik Start

Lab 1 година universal_currency_alt 1 кредит show_chart Початковий
Test and share your knowledge with our community!
done
Get access to over 700 hands-on labs, skill badges, and courses

Цю практичну роботу було розроблено спільно з нашими партнерами з компанії Trifacta. Оскільки компанія Trifacta є спонсором цієї практичної роботи, ми можемо надавати їй доступ до вашої особистої інформації за умови, що ви погодилися отримувати новини про продукти, оголошення й пропозиції в профілі вашого облікового запису.

GSP105

Логотип Google Cloud Self-Paced Labs

Огляд

Cloud Dataprep by Trifacta – це інтелектуальний сервіс даних для візуального вивчення, очищення й підготовки даних для аналізу. Сервіс Cloud Dataprep безсерверний і працює з будь-якими обсягами даних. Для його використання не потрібно розгортати інфраструктуру чи керувати нею. Легко працюйте з даними лише за допомогою кліків миші й без необхідності писати код.

Під час цієї практичної роботи ви навчитеся керувати набором даних за допомогою Dataprep. Ви імпортуватимете набори даних, виправлятимете невідповідності, перетворюватимете дані й об’єднуватимете їх. Навіть якщо зараз ці процеси для вас нові, уже наприкінці цієї практичної роботи ви будете мати про них уявлення.

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичної роботи відводиться обмежений час, і її не можна призупинити. Щойно ви натиснете Start Lab (Почати практичну роботу), з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичну роботу в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час виконання практичної роботи вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Щоб виконати цю практичну роботу, потрібно мати:

  • стандартний веб-переглядач, наприклад Chrome (рекомендовано)
Примітка. Виконуйте практичну роботу в режимі анонімного перегляду. Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його конфліктів з обліковим записом для навчання.
  • достатню кількість часу, оскільки почавши практичну роботу, ви не зможете призупинити її
Примітка. Якщо ви маєте особистий обліковий запис або проект Google Cloud, не використовуйте їх для доступу до цієї практичної роботи. Так ви уникнете додаткових стягнень з вашого облікового запису.

Як почати виконувати практичну роботу й увійти в Google Cloud Console

  1. Натисніть кнопку Start Lab (Почати практичну роботу). Якщо за практичну роботу необхідно заплатити, відкриється спливаюче вікно, де ви зможете обрати спосіб оплати. Ліворуч розміщено панель Lab Details (Відомості про практичну роботу) з такими даними:

    • кнопка Open Google Console (Відкрити Google Console);
    • час до закінчення;
    • тимчасові облікові дані, які потрібно використовувати для доступу до цієї практичної роботи;
    • інша необхідна для виконання цієї практичної роботи інформація.
  2. Натисніть Open Google Console (Відкрити Google Console). Завантажаться необхідні ресурси. Потім відкриється нова вкладка зі сторінкою Sign in (Вхід).

    Порада. Упорядковуйте вкладки в окремих вікнах, розміщуючи їх поруч.

    Примітка. Якщо з’явиться вікно Choose an account (Виберіть обліковий запис), натисніть Use Another Account (Увійти в інший обліковий запис).
  3. За потреби скопіюйте Username (Ім’я користувача) з панелі Lab Details (Відомості про практичну роботу) і вставте його у вікні Sign in (Вхід). Натисніть Next (Далі).

  4. Скопіюйте Password (Пароль) з панелі Lab Details (Відомості про практичну роботу) і вставте його у вікні Welcome (Привітання). Натисніть Next (Далі).

    Важливо. Обов’язково використовуйте облікові дані з панелі ліворуч. Не використовуйте облікові дані Google Cloud Skills Boost. Примітка. Якщо ввійти у власний обліковий запис Google Cloud, може стягуватися додаткова плата.
  5. Виконайте наведені нижче дії.

    • Прийміть Умови використання.
    • Не додавайте способи відновлення та двохетапну перевірку (оскільки це тимчасовий обліковий запис).
    • Не реєструйте безкоштовні пробні версії.

Через кілька секунд Cloud Console відкриється в новій вкладці.

Примітка. Ви можете переглянути меню зі списком продуктів і сервісів Google Cloud, натиснувши меню навігації вгорі ліворуч. Значок меню навігації

Завдання 1. Створіть у своєму проекті сегмент Cloud Storage

  1. У Cloud Console виберіть меню навігації(Значок меню навігації) > Cloud Storage > Buckets (Сегменти).

  2. Натисніть Create bucket (Створити сегмент).

  3. У діалоговому вікні Create a bucket (Створити сегмент) заповніть поле Name (Назва), указавши унікальну назву сегмента. Інші налаштування залиште без змін.

Примітка. Дізнатися більше про створення назв сегментів можна із цієї статті.
  1. Зніміть прапорець біля опції Enforce public access prevention on this bucket (Заборонити загальний доступ до цього сегмента) у розділі Choose how to control access to objects (Налаштуйте контроль доступу до об’єктів).

  2. Натисніть Create (Створити).

Ви створили сегмент. Запам’ятайте назву семента, адже вона знадобиться вам у наступних кроках.

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо сегмент Cloud Storage створено правильно, ви побачите оцінку.

Створіть сегмент Cloud Storage

Завдання 2. Ініціалізуйте Cloud Dataprep

  1. Виберіть меню навігації > Dataprep.
  2. Поставте прапорець, щоб прийняти Умови використання Google Dataprep, і натисніть Accept (Прийняти).
  3. Поставте прапорець, щоб надати компанії Trifacta доступ до даних вашого облікового запису, і натиснітьAgree and Continue (Прийняти й продовжити).
  4. Натисніть Allow (Дозволити), щоб надати компанії Trifacta доступ до даних вашого проекту.
  5. Натисніть ім’я користувача для навчання, щоб увійти в сервіс Cloud Dataprep by Trifacta. Ваше ім’я користувача Username (Ім’я користувача) буде наведено на панелі ліворуч у вікні практичної роботи.
  6. Натисніть Allow (Дозволити), щоб надати сервісу Cloud Dataprep доступ до вашого облікового запису для практичних робіт у Google Cloud.
  7. Поставте прапорець, щоб погодитися з Умовами використання Trifacta, і натисніть Accept (Прийняти).
  8. На екрані First time setup (Початкові налаштування) натисніть Continue (Продовжити), щоб створити сховище за умовчанням.

Відкриється сторінка Dataprep.

Перевірка виконаного завдання

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Якщо Cloud Dataprep правильно ініційовано зі сховищем за умовчанням, ви побачите оцінку.

Ініціалізуйте Cloud Dataprep

Завдання 3. Створіть потік

Cloud Dataprep використовує робочу область flow для доступу до наборів даних і керування ними.

  1. Натисніть значок Flows (Потоки) > Create (Створити) і виберіть Blank Flow (Порожній потік):

Значок "Flows" (Потоки), кнопка "Create" (Створити), варіант "Blank Flow" (Порожній потік)

  1. Натисніть Untitled Flow (Потік без назви) і додайте назву й опис потоку. Оскільки в цій практичній роботі використовуються дані Федеральної виборчої комісії США за 2016 рік, укажіть назву потоку "FEC-2016" і додайте опис "United States Federal Elections Commission 2016".
  2. Натисніть OK.

Відкриється сторінка потоку FEC-2016.

Завдання 4. Імпортуйте набори даних

У цьому розділі ви навчитесь імпортувати й додавати дані в потік FEC-2016.

  1. Натисніть Add Datasets (Додати набори даних) і перейдіть за посиланням Import Datasets (Імпортувати набори даних).

  2. На панелі меню ліворуч виберіть Cloud Storage для імпорту даних із Cloud Storage, а потім натисніть значок олівця, щоб змінити шлях до файлу.

Сторінка Cloud Storage

  1. У текстовому полі Choose a file or folder (Виберіть файл або папку) введіть gs://spls/gsp105 і натисніть Go (Вибрати).

Можливо, знадобиться розширити екран, щоб побачити кнопки Go (Вибрати) й Cancel (Скасувати).

  1. Натисніть us-fec/.

  2. Натисніть значок + поруч із файлом cn-2016.txt, щоб створити набір даних і додати його на панель праворуч. Натисніть назву набору даних на панелі праворуч і змініть її на "Candidate Master 2016".

  3. У той самий спосіб додайте набір даних itcont-2016-orig.txt і перейменуйте його на "Campaign Contributions 2016".

  4. Обидва набори даних відображатимуться на панелі праворуч. Натисніть Import & Add to Flow (Імпортувати й додати до потоку).

Два набори даних, відображені на панелі праворуч

Обидва набори даних відображатимуться як потік.

Завдання 5. Підготуйте файл із кандидатами

  1. За умовчанням буде вибрано набір даних "Candidate Master 2016". На панелі праворуч натисніть Edit Recipe (Змінити схему).

Відкриється сторінка набору даних "Candidate Master 2016".

Сторінка зміни набору даних "Candidate Master 2016" відкриється у вигляді таблиці.

Сторінка зміни набору даних "Candidate Master 2016" у вигляді таблиці

Сторінка зміни – це місце, де ви можете створити власну схему трансформації і побачити результати цього процесу на прикладі. Якщо ці результати вас влаштують, застосуйте трансформацію до свого набору даних.

  1. Угорі кожного стовпця вказано назву й значення, що визначають тип даних. Натисніть значок стовпця, щоб переглянути типи даних:

column6

  1. Зверніть увагу, що після натискання назви стовпця праворуч відкривається панель Details (Відомості).

  2. Натисніть значок X у верхньому правому куті панелі Details (Відомості), щоб закрити її.

У наступних кроках ви дізнаєтесь, як переглядати дані у вигляді таблиці й застосовувати трансформації до своєї схеми даних.

  1. Стовпець "Column5" містить дані за 1990–2064 роки. Розширте його (як у випадку з електронною таблицею), щоб відокремити кожен рік. Натисніть, щоб вибрати верхній сегмент, що позначатиме 2016 рік.

column5

У кроці, який ви створите далі, потрібно буде вибрати потрібні значення.

  1. Праворуч на панелі Suggestions (Пропозиції) у розділі Keep rows (Зберегти рядки) натисніть Add (Додати), щоб додати цей крок у свою схему.

 Панель "Suggestions" (Пропозиції)

Праворуч на панелі "Recipe" (Схема) з’явиться такий крок:

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. У стовпці 6 "State" (Штат) наведіть курсор на невідповідний фрагмент заголовка (позначено червоним кольором), щоб вибрати невідповідні рядки.

column6

Прокрутіть униз і знайдіть невідповідні значення (позначено червоним кольором). Зверніть увагу, що більшість із цих записів мають значення "P" у стовпці 7 і "US" у стовпці 6. Така невідповідність виникає через те, що стовпець 6 позначено як "State" (Штат) (відмічено прапорцем), однак у ньому є значення, що не позначають штат (наприклад, "US").

  1. Щоб виправити цю невідповідність, угорі панелі "Suggestions" (Пропозиції) натисніть значок X для скасування трансформації, а потім натисніть значок прапорця в стовпці 6 і змініть його на стовпець "String".

column6

Невідповідності буде виправлено, і стовпець буде позначено зеленим кольором.

  1. Відфільтруйте лише кандидатів у президенти, тобто записи, що мають значення "P" у стовпці 7. На гістограмі стовпця 7 наведіть курсор на два сегменти, щоб побачити, який із них має значення "H", а який — "P". Натисніть сегмент зі значенням "P".

column7

  1. Праворуч на панелі "Suggestions" (Пропозиції) натиснітьAdd (Додати), щоб додати крок у схему.

Збереження вікна з рядками

Завдання 6. Очистьте файл "Contributions" і об’єднайте його з файлом "Candidates"

На сторінці "Join" (Об’єднати) можна додати свій поточний набір даних до іншого набору чи схеми на основі спільної для обох наборів даних інформації.

Перед об’єднанням із файлом "Candidates" файл "Contributions" потрібно очистити.

  1. Угорі сторінки з таблицею натисніть FEC-2016 (засіб вибору набору даних).

Кнопка &quot;FEC-2016&quot; угорі сторінки з таблицею

  1. Натисніть, щоб вибрати затінений набір даних Campaign Contributions 2016.

  2. На панелі праворуч натисніть Add (Додати) > Recipe (Схема) і виберіть Edit Recipe (Змінити схему).

  3. У верхньому правому куті сторінки натисніть значок Recipe (Схема) і виберіть Add New Step (Додати новий крок).

Значок схеми й кнопка &quot;Add New Step&quot; (Додати новий крок)

Вилучіть зайві роздільники в наборі даних.

  1. Вставте наведену нижче команду мовою Wrangle у поле "Search" (Пошук).
replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

Інструмент Transformation Builder аналізує команду мовою Wrangle і заповнює поля трансформації "Find" (Знайти) і "Replace" (Замінити).

Transformation Builder

  1. Натисніть Add (Додати), щоб додати трансформацію в схему.

  2. Додайте до схеми ще один крок. Натисніть New Step (Новий крок) і введіть "Join" (Об’єднати) у полі пошуку.

Поле пошуку трансформацій

  1. Натисніть Join datasets (Об’єднати набори даних), щоб перейти на сторінку поєднань.

  2. Виберіть набір даних "Candidate Master 2016", щоб об’єднати його з набором "Campaign Contributions 2016" і внизу праворуч натисніть Accept (Прийняти).

Рядок &quot;Candidate Master 2016&quot;

  1. Праворуч наведіть курсор на розділ "Об’єднати ключі" і натисніть значок олівця (позначає функцію "Змінити").

Поле статусу поєднання

Dataprep визначає спільні ключі. Є багато спільних значень, які Dataprep пропонує як ключі об’єднання (Join Keys).

  1. На панелі "Add Key" (Додати ключ) розділу "Suggested join keys" (Пропоновані ключі об’єднання) натисніть column2 = column11.

Панель &quot;Add Key&quot; (Додати ключ)

  1. Натисніть Save and Continue (Зберегти й продовжити).

Відкриються стовпці 2 й 11 для перевірки.

  1. Натисніть Next (Далі) і поставте прапорець ліворуч від мітки "Column" (Стовпець), щоб додати всі стовпці з обох наборів даних в єдиний об’єднаний набір.

Список із міткою &quot;Column&quot; (Стовпець)

  1. Натисніть Review (Перевірити), а потім виберіть Add to Recipe (Додати в схему), щоб повернутися до таблиці.

Завдання 7. Підсумок даних

Створіть інформативний підсумок, узагальнивши, усереднивши й підрахувавши внески в стовпці 16 і згрупувавши кандидатів за ідентифікаторами, іменами й партіями в стовпцях 2, 24, 8 відповідно.

  1. Праворуч угорі панелі "Recipe" (Схема) натиснітьNew Step (Новий крок) і введіть наведену нижче формулу в поле пошуку Transformation (Трансформація), щоб переглянути зведені дані.
pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

З’явиться зразок об’єднаних і зведених даних у вигляді підсумкової таблиці кандидатів у президенти США й показників внесків у їхні кампанії 2016 року.

Сторінка &quot;Campaign Contributions&quot; (Внески кампанії)

  1. Натисніть Add (Додати), щоб відкрити підсумкову таблицю основних кандидатів у президенти США з показниками внесків у їхні кампанії 2016 року.

Завдання 8. Перейменуйте стовпці

Ви можете перейменовувати стовпці, щоб полегшити аналіз даних.

  1. Кожен етап перейменування й округлення потрібно додавати у схему окремо. Для цього натисніть New Step (Новий крок) і введіть:
rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']
  1. Натисніть Add (Додати).

  2. Додайте наведений нижче крок New Step (Новий крок) востаннє, щоб округлити середню суму внеску.

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)
  1. Натисніть Add (Додати).

Результати виглядатимуть приблизно так:

Таблиця результатів зі стовпцями &quot;Candidate_Id&quot;, &quot;Candidate_Name&quot;, &quot;Part_Affiliation&quot; і &quot;Total_Contribution_Sum&quot;

Вітаємо!

Ви навчилися додавати набір даних і створювати схеми для об’єднання даних у значущі результати за допомогою Dataprep.

Наступні кроки/Докладніше

Це завдання також входить до низки практичних робіт під назвою Qwik Starts. Вони призначені для ознайомлення з функціями Google Cloud. Такі практичні роботи можна знайти в каталозі за запитом "Qwik Starts".

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 15 вересня 2023 року

Практичну роботу востаннє протестовано 15 вересня 2023 року

© Google LLC 2024. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.