arrow_back

Практичне заняття підвищеного рівня складності "Робота з документами, що містять текст і зображення, за допомогою технологій мультимодального Gemini і мультимодальної генерації з доповненням через пошук (RAG)"

Get access to 700+ labs and courses

Практичне заняття підвищеного рівня складності "Робота з документами, що містять текст і зображення, за допомогою технологій мультимодального Gemini і мультимодальної генерації з доповненням через пошук (RAG)"

Lab 1 година 30 годин universal_currency_alt 5 кредитів show_chart Середній
info This lab may incorporate AI tools to support your learning.
Get access to 700+ labs and courses

GSP520

Логотип Google Cloud Self-Paced Labs

Огляд

Практична робота підвищеного рівня складності передбачає сценарій і кілька завдань. Покрокових інструкцій немає. Натомість ви маєте застосувати навички, які здобули під час практичних робіт курсу, і самостійно з’ясувати, як виконувати завдання. Автоматична система оцінювання (показана на цій сторінці) згенерує відгук щодо того, чи правильно виконано завдання.

Під час практичної роботи підвищеного рівня складності ви не вивчаєте нові поняття Google Cloud, а розвиваєте опановані навички (наприклад, змінюєте значення за умовчанням і переглядаєте повідомлення про помилки для їх виправлення).

Щоб набрати 100%, слід правильно виконати всі завдання за визначений період часу.

Це практичне заняття рекомендовано для слухачів, які зареєструвалися на кваліфікаційний курс Робота з документами, що містять текст і зображення, за допомогою технологій мультимодального Gemini і мультимодальної генерації з доповненням через пошук (RAG). Готові почати?

Ви будете виконувати такі дії:

  • використовувати мультимодальні запити, щоб видобувати інформацію з текстових, графічних і відеоданих, а також генерувати описи відео й отримувати додаткові відомості з роликів за допомогою мультимодального Gemini;
  • створювати метадані документів, які містять текст і зображення, видобувати всі релевантні фрагменти тексту й друкувати бібліографічні посилання, використовуючи технологію мультимодальної генерації з доповненням через пошук (RAG) Gemini.

Налаштування й вимоги

Перш ніж натиснути кнопку Start Lab (Почати практичну роботу)

Ознайомтеся з наведеними нижче вказівками. На виконання практичного заняття відводиться обмежений час, і його не можна призупинити. Щойно ви натиснете Почати заняття, з’явиться таймер, який показуватиме, скільки часу для роботи з ресурсами Google Cloud у вас залишилося.

Ви зможете виконати практичне заняття в дійсному робочому хмарному середовищі (не в симуляції або демонстраційному середовищі). Для цього на час практичного заняття вам надаються тимчасові облікові дані для реєстрації і входу в Google Cloud.

Для цього практичного заняття потрібно мати:

  • стандартний вебпереглядач, наприклад Chrome (рекомендовано);
Примітка. Виконуйте практичне заняття в анонімному вікні вебпереглядача (рекомендовано). Так ви уникнете додаткової плати, що може стягуватися з вашого особистого облікового запису внаслідок його помилкового використання замість облікового запису для навчання.
  • достатню кількість часу, оскільки почавши практичне заняття, ви не зможете призупинити його.
Примітка. Для виконання цього практичного заняття використовуйте лише обліковий запис для навчання, оскільки з іншого облікового запису Google Cloud може стягуватися плата.

Відкрийте блокнот у Vertex AI Workbench

  1. У меню навігації (Значок меню навігації) консолі Google Cloud натисніть Vertex AI > Workbench.

  2. Знайдіть екземпляр і натисніть кнопку Open JupyterLab (Відкрити JupyterLab).

Інтерфейс JupyterLab для екземпляра Workbench відкриється в новій вкладці вебпереглядача.

Примітка. Якщо в JupyterLab не відображаються записники, виконайте наведені нижче кроки, щоб скинути налаштування екземпляра.

1. Закрийте вкладку вебпереглядача з інтерфейсом JupyterLab і поверніться на головну сторінку Workbench.

2. Поставте прапорець біля назви екземпляра й натисніть Reset (Скинути).

3. Коли кнопка Open JupyterLab (Відкрити JupyterLab) знову стане активною, зачекайте одну хвилину, перш ніж натиснути її.

Налаштуйте блокнот

  1. Натисніть файл "".

  2. У вікні Select Kernel (Вибрати ядро) виберіть у списку доступних ядер опцію Python 3.

  3. Перш ніж переходити до завдання 1, виконайте код у 4 клітинках розділу Setup and requirements (Налаштування й вимоги) блокнота.

  4. Використовуйте наведену нижче інформацію, щоб ініціалізувати Vertex AI SDK для Python для свого проєкту.

    • У полі Project ID (Ідентифікатор проєкту) введіть .
    • У полі Location (Місцезнаходження) введіть .

Сценарій

Ви є координатором маркетингових кампаній у медіакомпанії і працюєте разом із менеджером із маркетингу над плануванням, виконанням і оцінкою кампаній для досягнення цілей із продажів. Нещодавно ви уклали важливий контракт із компанією Google. Як координатор маркетингових кампаній, ви хочете докладно ознайомитися з матеріалами, які допоможуть вам якомога швидше дізнатися більше про бренд Google і його індивідуальність. Для цього потрібно переглянути правила щодо фірмового оформлення Google, відгуки клієнтів, фінансові звіти й матеріали попередніх кампаній і оголошень про продукти. Ви використовуватимете інноваційні можливості Gemini, щоб швидше й ефективніше сформувати враження про діяльність компанії Google.

Під час цього практичного заняття ви спершу створите мультимодальні запити, щоб видобувати інформацію з текстових, графічних і відеоданих, а також генерувати описи відео й отримувати додаткові відомості з роликів за допомогою мультимодального Gemini. Ви також створюватимете метадані документів, які містять текст і зображення, видобуватимете всі релевантні фрагменти тексту й друкуватимете бібліографічні посилання, використовуючи технологію мультимодальної генерації з доповненням через пошук (RAG) Gemini.

Завдання 1. Згенеруйте мультимодальну статистику за допомогою Gemini

Під час виконання цього завдання ви ознайомитеся з брендом Google і його індивідуальністю за допомогою Gemini – мультимодальної моделі, що підтримує мультимодальні запити. Ви включатимете в запити фрагменти тексту, зображення й відео, щоб отримувати відповіді у вигляді тексту або коду.

Щоб виконати це завдання, дотримуйтеся вказівок у блокноті.

Примітка. Перш ніж натискати кнопку Підтвердити виконання для кожного завдання, зберігайте скрипт блокнота.

Завдання 1.1 Проаналізуйте зображення на прикладі різних знімків

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Проаналізуйте зображення на прикладі різних знімків.

Завдання 1.2 Знайдіть подібності й відмінності між зображеннями

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Знайдіть подібності й відмінності між зображеннями.

Завдання 1.3 Згенеруйте опис відео

Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.

Завдання 1.4 Отримайте теги об’єктів із відео

Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.

Завдання 1.5 Поставте додаткові запитання щодо відео

Виконайте це підзавдання, використовуючи відео https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4, і перейдіть до наступного завдання.

Завдання 1.6 Отримайте додаткові відомості з відео

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Згенеруйте опис відео й отримайте додаткові відомості з ролика.

Завдання 2. Отримайте й інтегруйте інформацію за допомогою технології мультимодальної генерації з доповненням через пошук (RAG)

Щоб виконати це завдання, дотримуйтеся вказівок у блокноті.

Доступні дані й допоміжні функції для завдання 2

Під час виконання цього завдання ви будете використовувати два окремі вихідні документи з даними.

  1. Умови використання сервісів Google, які визначають відносини між компанією Google і її користувачами. Цей документ містить інформацію про те, чого користувачі можуть очікувати від Google, а також про правила використання наших сервісів, права інтелектуальної власності на контент і процедури вирішення спорів і суперечок. Ця версія документа містить лише текст.

  2. Скорочена версія документа Google-10K, який містить докладний огляд фінансових показників компанії, а також її комерційної діяльності, процедур керування й факторів ризику. Оскільки оригінальний документ має великий розмір, ви використовуватимете скорочену версію із 14 сторінок, яка, крім тексту, містить зображення (зокрема таблиці, діаграми й графіки).

Ви також виберете потрібні допоміжні функції зі списку нижче, щоб виконувати завдання (більше інформації про них наведено на сайті GitHub).

  • Для розділу Inspect the processed text metadata (Робота з обробленими метаданими тексту)

    • text: отримання вихідного тексту зі сторінки
    • text_embedding_page: векторне представлення вихідного тексту зі сторінки
    • chunk_text: отримання вихідного тексту, розділеного на невеликі фрагменти
    • chunk_number: отримання індексу кожного фрагмента тексту
    • text_embedding_chunk: векторне представлення кожного фрагмента тексту
  • Для розділу Inspect the processed image metadata (Робота з обробленими метаданими зображень)

    • img_desc: отримання текстового опису зображення, згенерованого за допомогою Gemini
    • mm_embedding_from_text_desc_and_img: комбіноване векторне представлення зображення і його опису, що містить візуальну й текстову інформацію
    • mm_embedding_from_img_only: векторне представлення зображення без опису для порівняння з результатами аналізу на основі опису
    • text_embedding_from_image_description: окреме векторне представлення тексту згенерованого опису для текстового аналізу й порівняння
  • Для розділу Import the helper functions to implement RAG (Імпортування допоміжних функцій для впровадження технології генерації з доповненням через пошук)

    • get_similar_text_from_query(): на основі текстового запиту знаходить у документі релевантний текст за допомогою алгоритму косинуса подібності. Для обчислення використовуються векторні представлення з метаданих, при цьому результати можна фільтрувати за найвищим показником, номером сторінки або фрагмента чи розміром векторного представлення.
    • print_text_to_text_citation(): друкує джерело (бібліографічне посилання) і деталі отриманого тексту з функції get_similar_text_from_query().
    • get_similar_image_from_query(): на основі зображення або шляху до нього знаходить у документі релевантні зображення, використовуючи векторні представлення зображень із метаданих.
    • print_text_to_image_citation(): друкує джерело (бібліографічне посилання) і деталі отриманих зображень із функції get_similar_image_from_query().
    • get_gemini_response(): взаємодіє з моделлю Gemini, щоб давати відповіді на запитання на основі комбінації вхідних текстових і візуальних даних.
    • display_images(): виводить групу зображень у вигляді шляхів або об’єктів зображень PIL.

Завдання 2.1 Створіть метадані документів, які містять текст і зображення

Виконайте це підзавдання й перейдіть до наступного завдання.

Завдання 2.2 Створіть запит користувача

Виконайте це підзавдання й перейдіть до наступного завдання.

Завдання 2.3 Отримайте всі релевантні фрагменти тексту

Виконайте це підзавдання й перейдіть до наступного завдання.

Завдання 2.4 Створіть context_text

Виконайте це підзавдання й перейдіть до наступного завдання.

Завдання 2.5 Надішліть контекст у Gemini

Щоб підтвердити виконання завдання, натисніть Підтвердити виконання. Отримайте й інтегруйте інформацію за допомогою технології мультимодальної генерації з доповненням через пошук (RAG).

Вітаємо!

Пройшовши це заняття підвищеного рівня складності, ви продемонстрували вміння використовувати інтерфейси Gemini API для генерування тексту, створення викликів функцій і опису відеоконтенту. Перш ніж вводити ці функції в дію, ви переконалися, що вони відповідають установленим стандартам. Гарний результат!

Курс "Робота з документами, що містять текст і зображення, за допомогою технологій мультимодального Gemini і мультимодальної генерації з доповненням через пошук (RAG)"

Наступні кроки/Докладніше

Щоб дізнатися більше про Gemini, перегляньте наведені нижче ресурси.

Навчання й сертифікація Google Cloud

…допомагають ефективно використовувати технології Google Cloud. Наші курси передбачають опанування технічних навичок, а також ознайомлення з рекомендаціями, що допоможуть вам швидко зорієнтуватися й вивчити матеріал. Ми пропонуємо курси різних рівнів – від базового до високого. Ви можете вибрати формат навчання (за запитом, онлайн або офлайн) відповідно до власного розкладу. Пройшовши сертифікацію, ви перевірите й підтвердите свої навички та досвід роботи з технологіями Google Cloud.

Посібник востаннє оновлено 27 березня 2025 року

Практичне заняття востаннє протестовано 27 березня 2025 року

© Google LLC 2025. Усі права захищено. Назва та логотип Google є торговельними марками Google LLC. Усі інші назви компаній і продуктів можуть бути торговельними марками відповідних компаній, з якими вони пов’язані.

Before you begin

  1. Labs create a Google Cloud project and resources for a fixed time
  2. Labs have a time limit and no pause feature. If you end the lab, you'll have to restart from the beginning.
  3. On the top left of your screen, click Start lab to begin

Use private browsing

  1. Copy the provided Username and Password for the lab
  2. Click Open console in private mode

Sign in to the Console

  1. Sign in using your lab credentials. Using other credentials might cause errors or incur charges.
  2. Accept the terms, and skip the recovery resource page
  3. Don't click End lab unless you've finished the lab or want to restart it, as it will clear your work and remove the project

This content is not currently available

We will notify you via email when it becomes available

Great!

We will contact you via email if it becomes available

One lab at a time

Confirm to end all existing labs and start this one

Use private browsing to run the lab

Use an Incognito or private browser window to run this lab. This prevents any conflicts between your personal account and the Student account, which may cause extra charges incurred to your personal account.