
Before you begin
- Labs create a Google Cloud project and resources for a fixed time
- Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
- On the top left of your screen, click Start lab to begin
Image understanding across multiple images
/ 25
Similarity/Differences between the images
/ 25
Generate a video description and retrieve extra information beyond the video
/ 25
Multimodal retrieval augmented generation (RAG)
/ 25
Практична робота підвищеного рівня складності передбачає сценарій і кілька завдань. Покрокових інструкцій немає. Натомість ви маєте застосувати навички, які здобули під час практичних робіт курсу, і самостійно з’ясувати, як виконувати завдання. Автоматична система оцінювання (показана на цій сторінці) згенерує відгук щодо того, чи правильно виконано завдання.
Під час практичної роботи підвищеного рівня складності ви не вивчаєте нові поняття Google Cloud, а розвиваєте опановані навички (наприклад, змінюєте значення за умовчанням і переглядаєте повідомлення про помилки для їх виправлення).
Щоб набрати 100%, слід правильно виконати всі завдання за визначений період часу.
Це практичне заняття рекомендовано для слухачів, які зареєструвалися на кваліфікаційний курс Робота з документами, що містять текст і зображення, за допомогою технологій мультимодального Gemini і мультимодальної генерації з доповненням через пошук (RAG). Готові почати?
Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.
Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.
Для цього практичного заняття потрібно мати:
У меню навігації () консолі Google Cloud натисніть Vertex AI > Workbench.
Знайдіть екземпляр
Інтерфейс JupyterLab для екземпляра Workbench відкриється в новій вкладці вебпереглядача.
1. Закрийте вкладку вебпереглядача з інтерфейсом JupyterLab і поверніться на головну сторінку Workbench.
2. Поставте прапорець біля назви екземпляра й натисніть Reset (Скинути).
3. Коли кнопка Open JupyterLab (Відкрити JupyterLab) знову стане активною, зачекайте одну хвилину, перш ніж натиснути її.
Натисніть файл "
У вікні Select Kernel (Вибрати ядро) виберіть у списку доступних ядер опцію Python 3.
Перш ніж переходити до завдання 1, виконайте код у 4 клітинках розділу Setup and requirements (Налаштування й вимоги) блокнота.
Використовуйте наведену нижче інформацію, щоб ініціалізувати Vertex AI SDK для Python для свого проєкту.
Ви є координатором маркетингових кампаній у медіакомпанії і працюєте разом із менеджером із маркетингу над плануванням, виконанням і оцінкою кампаній для досягнення цілей із продажів. Нещодавно ви уклали важливий контракт із компанією Google. Як координатор маркетингових кампаній, ви хочете докладно ознайомитися з матеріалами, які допоможуть вам якомога швидше дізнатися більше про бренд Google і його індивідуальність. Для цього потрібно переглянути правила щодо фірмового оформлення Google, відгуки клієнтів, фінансові звіти й матеріали попередніх кампаній і оголошень про продукти. Ви використовуватимете інноваційні можливості Gemini, щоб швидше й ефективніше сформувати враження про діяльність компанії Google.
Під час цього практичного заняття ви спершу створите мультимодальні запити, щоб видобувати інформацію з текстових, графічних і відеоданих, а також генерувати описи відео й отримувати додаткові відомості з роликів за допомогою мультимодального Gemini. Ви також створюватимете метадані документів, які містять текст і зображення, видобуватимете всі релевантні фрагменти тексту й друкуватимете бібліографічні посилання, використовуючи технологію мультимодальної генерації з доповненням через пошук (RAG) Gemini.
Під час виконання цього завдання ви ознайомитеся з брендом Google і його індивідуальністю за допомогою Gemini – мультимодальної моделі, що підтримує мультимодальні запити. Ви включатимете в запити фрагменти тексту, зображення й відео, щоб отримувати відповіді у вигляді тексту або коду.
Щоб виконати це завдання, дотримуйтеся вказівок у блокноті.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.
Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.
Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Щоб виконати це завдання, дотримуйтеся вказівок у блокноті.
Під час виконання цього завдання ви будете використовувати два окремі вихідні документи з даними.
Умови використання сервісів Google, які визначають відносини між компанією Google і її користувачами. Цей документ містить інформацію про те, чого користувачі можуть очікувати від Google, а також про правила використання наших сервісів, права інтелектуальної власності на контент і процедури вирішення спорів і суперечок. Ця версія документа містить лише текст.
Скорочена версія документа Google-10K, який містить докладний огляд фінансових показників компанії, а також її комерційної діяльності, процедур керування й факторів ризику. Оскільки оригінальний документ має великий розмір, ви використовуватимете скорочену версію із 14 сторінок, яка, крім тексту, містить зображення (зокрема таблиці, діаграми й графіки).
Ви також виберете потрібні допоміжні функції зі списку нижче, щоб виконувати завдання (більше інформації про них наведено на сайті GitHub).
Для розділу Inspect the processed text metadata (Робота з обробленими метаданими тексту)
Для розділу Inspect the processed image metadata (Робота з обробленими метаданими зображень)
Для розділу Import the helper functions to implement RAG (Імпортування допоміжних функцій для впровадження технології генерації з доповненням через пошук)
get_similar_text_from_query()
.Виконайте це підзавдання й перейдіть до наступного завдання.
Виконайте це підзавдання й перейдіть до наступного завдання.
Виконайте це підзавдання й перейдіть до наступного завдання.
Виконайте це підзавдання й перейдіть до наступного завдання.
Щоб підтвердити виконання завдання, натисніть Підтвердити виконання.
Пройшовши це заняття підвищеного рівня складності, ви продемонстрували вміння використовувати інтерфейси Gemini API для генерування тексту, створення викликів функцій і опису відеоконтенту. Перш ніж вводити ці функції в дію, ви переконалися, що вони відповідають установленим стандартам. Гарний результат!
Щоб дізнатися більше про Gemini, перегляньте наведені нижче ресурси.
…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.
Посібник востаннє оновлено 27 березня 2025 року
Практичне заняття востаннє протестовано 27 березня 2025 року
© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.
This content is not currently available
We will notify you via email when it becomes available
Great!
We will contact you via email if it becomes available
One lab at a time
Confirm to end all existing labs and start this one