GSP520

Présentation
Dans un atelier challenge, vous devez suivre un scénario et effectuer une série de tâches. Aucune instruction détaillée n'est fournie : vous devez utiliser les compétences acquises au cours des ateliers du cours correspondant pour déterminer comment procéder par vous-même. Vous saurez si vous avez exécuté correctement les différentes tâches grâce au score calculé automatiquement (affiché sur cette page).
Lorsque vous participez à un atelier challenge, vous n'étudiez pas de nouveaux concepts Google Cloud. Vous allez approfondir les compétences précédemment acquises. Par exemple, vous devrez modifier les valeurs par défaut ou encore examiner des messages d'erreur pour corriger vous-même les problèmes.
Pour atteindre le score de 100 %, vous devez mener à bien l'ensemble des tâches dans le délai imparti.
Cet atelier est recommandé aux participants inscrits pour le badge de compétence Inspecter des documents enrichis avec Gemini multimodal et le RAG multimodal. Êtes-vous prêt pour le challenge ?
Compétences évaluées
- Utiliser des requêtes multimodales pour extraire des informations de données textuelles et visuelles, générer la description d'une vidéo et récupérer des informations qui ne sont pas incluses dans la vidéo à l'aide de la multimodalité avec Gemini
- Créer des métadonnées de documents contenant du texte et des images, collecter tous les passages de texte pertinents et imprimer des citations à l'aide de la génération augmentée par récupération (RAG, Retrieval Augmented Generation) multimodale avec Gemini
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
- Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Ouvrir le notebook dans Vertex AI Workbench
-
Dans la console Google Cloud, accédez au menu de navigation (
) et cliquez sur Vertex AI > Workbench.
-
Recherchez l'instance , puis cliquez sur le bouton Ouvrir JupyterLab.
L'interface JupyterLab de votre instance Workbench s'ouvre dans un nouvel onglet de navigateur.
Remarque : Si vous ne voyez pas de notebooks dans JupyterLab, veuillez suivre la procédure ci-dessous pour réinitialiser l'instance.
1. Fermez l'onglet du navigateur pour JupyterLab, puis revenez à la page d'accueil de Workbench.
2. Cochez la case à côté du nom de l'instance, puis cliquez sur Réinitialiser.
3. Une fois que le bouton Ouvrir JupyterLab est à nouveau activé, patientez une minute, puis cliquez dessus.
Configurer le notebook
-
Cliquez sur le fichier .
-
Dans la boîte de dialogue Select Kernel (Sélectionner le kernel), sélectionnez Python 3 dans la liste des kernels disponibles.
-
Exécutez les quatre cellules de la section Préparation du notebook (avant de commencer la tâche 1).
-
Utilisez les informations suivantes pour initialiser le SDK Gen AI pour Python dans votre projet :
- Dans le champ ID du projet, saisissez .
- Dans le champ Emplacement, saisissez .
Scénario du challenge
Vous êtes coordinateur des campagnes marketing d'une entreprise de médias. En collaboration étroite avec le responsable marketing, vous planifiez, exécutez et évaluez les campagnes en fonction des objectifs de vente. Vous avez récemment décroché un contrat intéressant avec Google. Pour exercer au mieux vos fonctions, vous avez besoin de consulter les documents qui vous aideront à vous familiariser avec la marque Google et son identité le plus rapidement possible. Vous prévoyez donc de passer en revue les consignes relatives à la marque, les précédentes campagnes, les annonces produits, les témoignages de clients et les rapports financiers de Google en exploitant les fonctionnalités innovantes de Gemini pour obtenir des insights détaillés de façon plus efficace.
Dans cet atelier challenge, vous allez d'abord utiliser des requêtes multimodales pour extraire des informations de données textuelles et visuelles, générer la description d'une vidéo et récupérer des informations qui ne sont pas incluses dans la vidéo à l'aide de Gemini multimodal. Ensuite, vous allez créer des métadonnées de documents contenant du texte et des images, collecter tous les passages de texte pertinents et imprimer des citations à l'aide de la génération augmentée par récupération (RAG) multimodale avec Gemini.
Tâche 1 : Générer des insights multimodaux avec Gemini
Dans cette tâche, vous allez vous familiariser avec la marque Google et son identité en utilisant Gemini, un modèle compatible avec les requêtes multimodales. Vous allez inclure du texte, des images et des vidéos dans vos requêtes, et obtenir des réponses textuelles ou de code.
Pour réaliser cette tâche, suivez les instructions des sections spécifiées du notebook.
Remarque : Enregistrez le script du notebook avant de cliquer sur le bouton Vérifier ma progression pour chaque tâche.
- Pour étudier plusieurs images à l'aide d'un modèle multimodal, suivez les instructions de la section Comprendre un groupe d'images.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Comprendre un groupe d'images
- Pour comparer des images à l'aide d'un modèle multimodal, suivez les instructions de la section Identifier les similitudes et différences entre des images.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Identifier les similitudes et différences entre des images
-
Pour générer la description d'une vidéo à l'aide d'un modèle multimodal, suivez les instructions de la section Générer la description d'une vidéo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Pour extraire des tags d'objets dans une vidéo à l'aide d'un modèle multimodal, suivez les instructions de la section Extraire des tags d'objets dans une vidéo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
-
Pour explorer davantage la vidéo à l'aide d'un modèle multimodal, suivez les instructions de la section Répondre à des questions sur une vidéo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Pour obtenir plus d'informations à partir d'images à l'aide d'un modèle multimodal, suivez les instructions de la section Récupérer des informations qui ne sont pas incluses dans la vidéo.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Générer la description d'une vidéo et récupérer des informations qui ne sont pas incluses dans la vidéo
Tâche 2 : Récupérer et intégrer des informations à l'aide de la génération augmentée par récupération (RAG) multimodale
Pour réaliser cette tâche, suivez les instructions des sections spécifiées du notebook.
Données et fonctions d'assistance disponibles pour la tâche 2 :
-
Les Conditions d'utilisation des services Google, qui définissent la relation entre Google et ses utilisateurs. Elles indiquent ce que les utilisateurs peuvent attendre de la part de Google, les règles d'utilisation des services, les droits de propriété intellectuelle associés aux contenus et les procédures à suivre pour résoudre les litiges ou les désaccords. Cet exemple de document ne contient que du texte.
-
Une version modifiée du formulaire 10-K de Google, qui fournit une vue d'ensemble des performances financières, des activités commerciales, de la gestion et des facteurs de risque de l'entreprise. Puisque le document d'origine est assez volumineux, vous utiliserez à la place une version modifiée de seulement 14 pages, divisée en deux parties : partie 1 et partie 2. Bien qu'il soit tronqué, cet exemple de document contient quand même du texte et des images (tableaux, graphiques, etc.).
Vous choisirez également parmi les fonctions d'assistance suivantes pour réaliser les tâches ci-dessous. Pour en savoir plus sur ces fonctions, consultez GitHub :
-
Pour la fonction d'inspection des métadonnées textuelles traitées :
-
text : texte d'origine de la page.
-
text_embedding_page : embedding du texte d'origine de la page.
-
chunk_text : texte d'origine divisé en plus petits passages.
-
chunk_number : index de chaque passage de texte.
-
text_embedding_chunk : embedding de chaque passage de texte.
-
Pour la fonction d'inspection des métadonnées d'images traitées :
-
img_desc : description textuelle de l'image générée par Gemini.
-
mm_embedding_from_text_desc_and_img : embedding combiné de l'image et de sa description, capturant à la fois les informations visuelles et textuelles.
-
mm_embedding_from_img_only : embedding de l'image sans description, à comparer avec l'analyse basée sur la description.
-
text_embedding_from_image_description : embedding textuel séparé de la description générée, permettant de comparer et d'analyser le texte.
-
Pour importer les fonctions d'assistance afin d'implémenter le RAG :
-
get_similar_text_from_query() : utilise un algorithme de similarité cosinus pour trouver les éléments de texte pertinents dans le document à partir d'une requête textuelle. Cette fonction s'appuie sur les embeddings textuels des métadonnées pour calculer les résultats, qui peuvent être filtrés selon plusieurs critères (meilleur score, numéro de page/passage ou taille d'embedding).
-
print_text_to_text_citation() : imprime la source (citation) et les détails du texte récupéré à partir de la fonction
get_similar_text_from_query()
.
-
get_similar_image_from_query() : trouve les images pertinentes dans le document à partir d'une image ou de son chemin d'accès. Cette fonction utilise les embeddings d'images des métadonnées.
-
print_text_to_image_citation() : imprime la source (citation) et les détails des images récupérées à partir de la fonction get_similar_image_from_query().
-
get_gemini_response() : interagit avec un modèle Gemini pour répondre à des questions sur la base d'une combinaison d'entrées textuelles et visuelles.
-
display_images() : affiche une série d'images fournies en tant que chemins d'accès ou objets d'image PIL.
-
Pour importer et exécuter des fonctions d'assistance, suivez les instructions de la section Obtenir les métadonnées de documents contenant du texte et des images.
-
Pour utiliser les variables fournies, suivez les instructions de la section Créer une requête utilisateur.
-
Pour collecter les passages de texte pertinents en fonction de la requête, suivez les instructions de la section Collecter tous les passages de texte pertinents.
-
Pour organiser les passages de texte, suivez les instructions de la section Créer context_text.
-
Pour transmettre le contexte à Gemini et générer une réponse, suivez les instructions de la section Transmettre le contexte à Gemini.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Récupérer et intégrer des informations à l'aide de la génération augmentée par récupération (RAG) multimodale
Félicitations !
En suivant cet atelier challenge, vous avez démontré votre capacité à exploiter les API Gemini pour générer du texte, créer des appels de fonction et décrire des contenus vidéo. Votre travail a permis de vérifier que les fonctionnalités répondaient aux normes attendues avant d'être déployées en production. Félicitations !

Étapes suivantes et informations supplémentaires
Consultez les ressources suivantes pour en savoir plus sur Gemini :
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière modification du manuel : 11 juillet 2025
Dernier test de l'atelier : 11 juillet 2025
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.