GSP1290

Présentation
Cet atelier présente Gemini 2.0 Flash, le nouveau modèle d'IA multimodal avancé de Google DeepMind, disponible avec l'API Gemini dans Vertex AI. Vous verrez que la vitesse, les performances et la qualité ont été nettement améliorées. Vous apprendrez aussi à exploiter ses capacités pour des tâches comme la génération de texte et de code, le traitement de données multimodales et l'appel de fonction. Cet atelier aborde également des fonctionnalités avancées telles que les méthodes asynchrones, les instructions système, la génération contrôlée, les paramètres de sécurité, l'ancrage avec la recherche Google et le comptage de jetons.
Gemini
Gemini est une famille de modèles d'IA générative puissants développés par Google DeepMind, capables de comprendre et de générer plusieurs formes de contenu, comme du texte, du code, des images, du son et des vidéos.
API Gemini dans Vertex AI
L'API Gemini dans Vertex AI fournit une interface unifiée pour interagir avec les modèles Gemini. Elle permet aux développeurs d'intégrer facilement ces puissantes fonctionnalités d'IA dans leurs applications. Pour connaître les dernières actualités et les fonctionnalités spécifiques des versions les plus récentes, veuillez consulter la documentation officielle sur Gemini.
Modèles Gemini
-
Gemini Pro : conçu pour les tâches de raisonnement complexe, par exemple :
- l'analyse et la synthèse de grands volumes d'informations ;
- le raisonnement multimodal sophistiqué (sur du texte, du code, des images, etc.) ;
- la résolution efficace de problèmes à l'aide de codebases complexes.
-
Gemini Flash : optimisé pour être rapide et efficace, il offre :
- des temps de réponse inférieurs à une seconde et un haut débit ;
- une qualité élevée à moindre coût pour une grande variété de tâches ;
- des fonctionnalités multimodales améliorées, dont une meilleure compréhension spatiale, de nouvelles modalités de sortie (texte, audio, images) et l'utilisation native d'outils (recherche Google, exécution de code et fonctions tierces).
Prérequis
Avant de commencer cet atelier, vous devez :
- avoir des connaissances de base en programmation Python ;
- connaître les concepts généraux sur les API ;
- savoir exécuter du code Python dans un notebook Jupyter dans Vertex AI Workbench.
Objectifs
Dans cet atelier sur Gemini 2.0 Flash, vous allez apprendre à :
-
générer du texte et du code (générer différents types de texte, y compris avec le streaming de sortie, conversations multitours, écrire et exécuter de code) ;
-
configurer et contrôler le comportement du modèle (configurer les paramètres du modèle, définir des instructions système, appliquer des filtres de sécurité et personnaliser la sortie du modèle avec des techniques de génération contrôlée) ;
-
traiter des données multimodales (gérer et traiter différents types de données, y compris du texte, de l'audio, du code, des documents, des images et des vidéos) ;
-
interagir de façon flexible avec le modèle (utiliser des méthodes d'interaction synchrones et asynchrones pour répondre aux besoins de différentes applications) ;
-
ancrer les réponses du modèle avec la recherche Google (améliorer la justesse et la récence des réponses du modèle en les ancrant dans des données réelles issues de la recherche Google) ;
-
utiliser l'appel de fonction et gérer les jetons (implémenter l'appel de fonction automatique et manuel, et suivre l'utilisation en comptant les jetons).
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
- Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement.
Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
- Le bouton "Ouvrir la console Google Cloud"
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
-
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}}
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}}
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud.
Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
-
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais sans frais.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Remarque : Pour accéder aux produits et services Google Cloud, cliquez sur le menu de navigation ou saisissez le nom du service ou du produit dans le champ Recherche.
Tâche 1 : ouvrir le notebook dans Vertex AI Workbench
-
Dans la console Google Cloud, accédez au menu de navigation (
) et cliquez sur Vertex AI > Workbench.
-
Recherchez l'instance , puis cliquez sur le bouton Ouvrir JupyterLab.
L'interface JupyterLab de votre instance Workbench s'ouvre dans un nouvel onglet de navigateur.
Remarque : Si vous ne voyez pas de notebooks dans JupyterLab, veuillez suivre la procédure ci-dessous pour réinitialiser l'instance.
1. Fermez l'onglet du navigateur pour JupyterLab, puis revenez à la page d'accueil de Workbench.
2. Cochez la case à côté du nom de l'instance, puis cliquez sur Réinitialiser.
3. Une fois que le bouton Ouvrir JupyterLab est à nouveau activé, patientez une minute, puis cliquez dessus.
Tâche 2 : configurer le notebook
-
Ouvrez le fichier .
-
Dans la boîte de dialogue Select Kernel (Sélectionner le kernel), sélectionnez Python 3 dans la liste des kernels disponibles.
-
Parcourez les sections Getting Started (Premiers pas) et Import libraries (Importer des bibliothèques) du notebook.
- Pour Project ID (ID du projet), utilisez et pour Location (Emplacement), utilisez .
Remarque : Vous pouvez ignorer les cellules du notebook avec la mention Colab only (Colab uniquement). Si l'exécution d'une cellule renvoie l'erreur 429, patientez une minute avant de la réexécuter pour poursuivre.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Configurer le notebook
Tâche 3 : générer du texte à partir de prompts textuels
Dans cette tâche, vous allez utiliser le modèle Gemini 2.0 Flash pour générer du texte à partir de prompts textuels.
- Parcourez la section Charger le modèle Gemini 2.0 Flash du notebook.
- Parcourez la section Générer du texte à partir de prompts textuels du notebook. Testez plusieurs prompts pour voir comment le modèle réagit.
Générer un flux de contenu
Par défaut, le modèle renvoie une réponse lorsque le processus de génération est terminé. Vous pouvez également utiliser la méthode generate_content_stream
pour afficher la réponse progressivement à mesure qu'elle est générée. Le modèle renverra alors les fragments de la réponse dès qu'ils seront générés.
- Parcourez la section Générer un flux de contenu du notebook.
Commencer un chat multitour
L'API Gemini prend en charge les conversations libres multitours comportant plusieurs échanges.
Le contexte de la conversation est conservé entre les messages.
- Parcourez la section Commencer un chat multitour du notebook.
Envoyer des requêtes asynchrones
client.aio
expose toutes les méthodes asynchrones analogues disponibles sur client
.
Par exemple, client.aio.models.generate_content
est la version asynchrone de client.models.generate_content
.
- Parcourez la section Envoyer des requêtes asynchrones du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Générer du texte à partir de prompts textuels
Tâche 4 : configurer les paramètres du modèle
Dans cette tâche, vous allez apprendre à configurer les paramètres du modèle pour affiner ses sorties. En ajustant ces paramètres, vous pouvez contrôler des aspects tels que la créativité, la longueur et la sécurité du texte généré.
Vous pouvez inclure des valeurs de paramètres dans chaque appel que vous envoyez à un modèle pour contrôler la manière dont il génère sa réponse. En fonction de ces valeurs, le modèle peut produire des résultats différents. Vous pouvez faire des tests avec différents paramètres pour voir l'impact sur les résultats.
- Parcourez la section Configurer les paramètres du modèle du notebook.
Définir des instructions système
Les instructions système vous permettent d'orienter le comportement du modèle. En définissant des instructions système, vous fournissez au modèle davantage de contexte pour qu'il comprenne la tâche, renvoie des réponses plus personnalisées et respecte des consignes pendant toute l'interaction avec l'utilisateur.
- Parcourez la section Définir des instructions système du notebook.
Filtres de sécurité
L'API Gemini fournit des filtres de sécurité que vous pouvez configurer pour restreindre ou autoriser certains types de contenus. Ces filtres couvrent plusieurs catégories et vous permettent d'ajuster les paramètres selon les besoins de votre cas d'utilisation. Pour en savoir plus, consultez la page Configurer des filtres de sécurité.
Lorsque vous envoyez une requête à Gemini, le contenu est analysé et obtient un score de sécurité. Vous pouvez vérifier les scores de sécurité du contenu généré en imprimant les réponses du modèle. La valeur des paramètres de sécurité par défaut est OFF
et les seuils de blocage par défaut sont BLOCK_NONE
.
safety_settings
permet d'ajuster les paramètres de sécurité de chaque requête envoyée à l'API. Cet exemple montre comment définir le seuil de blocage sur BLOCK_LOW_AND_ABOVE
pour toutes les catégories :
- Parcourez la section Filtres de sécurité du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Configurer les paramètres du modèle
Tâche 5 : envoyer des prompts multimodaux
Gemini est un modèle multimodal compatible avec les prompts multimodaux.
Vous pouvez inclure les types de données suivants provenant de diverses sources. Voici le tableau HTML mis à jour avec les types MIME étendus pour la section "Audio" :
Type de données |
Source(s) |
Type(s) MIME |
Texte |
Intégré, fichier local, URL générale, Google Cloud Storage |
text/plain |
Code |
Intégré, fichier local, URL générale, Google Cloud Storage |
text/plain |
Document |
Fichier local, URL générale, Google Cloud Storage |
application/pdf |
Image |
Fichier local, URL générale, Google Cloud Storage |
image/jpeg image/png image/webp
|
Audio |
Fichier local, URL générale, Google Cloud Storage |
audio/aac audio/flac audio/mp3
audio/m4a audio/mpeg audio/mpga
audio/mp4 audio/opus audio/pcm
audio/wav audio/webm
|
Vidéo |
Fichier local, URL générale, Google Cloud Storage, YouTube |
video/mp4 video/mpeg video/x-flv
video/quicktime video/mpegps video/mpg
video/webm video/wmv video/3gpp
|
Dans cette tâche, vous allez envoyer au modèle différents types de prompts multimodaux, en combinant du texte avec d'autres types de données comme des images, de l'audio et des vidéos.
- Parcourez la section Envoyer une image locale du notebook.
- Parcourez la section Envoyer un document depuis Google Cloud Storage du notebook.
- Parcourez la section Envoyer un fichier audio à partir d'une URL générale du notebook.
- Parcourez la section Envoyer une vidéo à partir d'une URL YouTube du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Envoyer des prompts multimodaux
Tâche 6 : contrôler la sortie générée et gérer les jetons
La génération contrôlée vous permet de définir un schéma de réponse pour spécifier la structure de la sortie d'un modèle, les noms des champs et le type de données attendu pour chaque champ. Le schéma de réponse est spécifié dans le paramètre response_schema
de config
. La sortie du modèle respectera strictement ce schéma.
Vous pouvez fournir les schémas sous forme de modèles Pydantic ou de chaînes JSON. Le modèle répondra au format JSON ou Enum, selon la valeur définie dans response_mime_type
. Dans cette tâche, vous allez découvrir des techniques permettant de contrôler la sortie du modèle et de gérer l'utilisation des jetons.
Dans la tâche précédente, vous avez vu comment configurer des paramètres. Dans celle-ci, vous allez apprendre à définir un schéma de réponse pour contrôler encore plus précisément le format de sortie du modèle.
- Parcourez la section Contrôler la sortie générée du notebook.
Compter et calculer les jetons
La méthode count_tokens()
permet de calculer le nombre de jetons d'entrée avant d'envoyer une requête à l'API Gemini. Pour en savoir plus, consultez la page Lister et compter les jetons.
- Parcourez la section Compter et calculer les jetons du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Contrôler la sortie générée et gérer les jetons
Tâche 7 : la recherche Google en tant qu'outil (ancrage)
L'ancrage vous permet d'associer des données réelles au modèle Gemini.
En ancrant les réponses du modèle dans les résultats de recherche Google, celui-ci peut accéder à des informations qui vont au-delà de ses données d'entraînement, et ainsi produire des réponses plus précises, plus à jour et plus adaptées.
L'ancrage avec la recherche Google permet d'améliorer la justesse et la récence des réponses du modèle. À partir de Gemini 2.0, la recherche Google est disponible en tant qu'outil. Cela signifie que le modèle peut décider quand l'utiliser.
Recherche Google
Vous pouvez ajouter l'argument de mot clé tools
avec un Tool
incluant GoogleSearch
pour indiquer à Gemini d'effectuer d'abord une recherche Google à partir du prompt, puis de construire une réponse basée sur les résultats de recherche sur le Web.
La récupération dynamique vous permet de définir un seuil qui déterminera quand utiliser l'ancrage pour les réponses du modèle. Cette fonctionnalité est utile lorsque le prompt ne nécessite pas de réponse ancrée dans la recherche Google et que les modèles compatibles peuvent fournir une réponse basée sur leurs connaissances sans ancrage. Vous pouvez ainsi gérer plus efficacement la latence, la qualité et les coûts.
- Parcourez la section Recherche Google du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
La recherche Google en tant qu'outil (ancrage)
Tâche 8 : utiliser l'appel de fonction et l'exécution de code
L'appel de fonction dans Gemini permet aux développeurs de créer une description de fonction dans leur code, puis de la transmettre à un modèle de langage dans une requête. Vous pouvez soumettre une fonction Python pour effectuer un appel de fonction automatique, qui exécutera la fonction et renverra le résultat en langage naturel généré par Gemini.
Vous pouvez également soumettre une spécification OpenAPI, qui renverra le nom d'une fonction correspondant à la description ainsi que les arguments avec lesquels l'appeler. Dans cette tâche, vous allez tester l'appel de fonction pour permettre au modèle d'interagir avec des systèmes externes, puis exécuter le code généré par le modèle.
- Parcourez la section Fonction Python (appel de fonction automatique) du notebook.
- Parcourez la section Spécification OpenAPI (appel de fonction manuel) du notebook.
Exécution de code
La fonctionnalité d'exécution de code de l'API Gemini permet au modèle de générer et d'exécuter du code Python ainsi que d'apprendre des résultats de façon itérative jusqu'à ce qu'il parvienne à une sortie finale. Avec cette fonctionnalité, vous pouvez créer des applications qui bénéficient d'un raisonnement basé sur du code et qui produisent des sorties textuelles. Par exemple, vous pouvez utiliser l'exécution de code dans une application qui résout des équations ou traite du texte.
Comme l'appel de fonction, l'exécution de code est disponible en tant qu'outil pour l'API Gemini.
Ainsi, une fois que vous l'avez ajoutée en tant qu'outil, le modèle décide quand l'utiliser.
- Parcourez la section Exécution de code du notebook.
Cliquez sur Vérifier ma progression pour valider l'objectif.
Utiliser l'appel de fonction et l'exécution de code
Félicitations !
Félicitations ! Dans cet atelier, vous avez acquis une expérience pratique du modèle de pointe Gemini 2.0 Flash au travers de l'API Gemini dans Vertex AI. Vous avez découvert ses différentes capacités, dont la génération de texte et de code, le traitement de données multimodales et la configuration avancée des paramètres. Vous disposez désormais des connaissances nécessaires pour créer des applications d'IA innovantes et sophistiquées en exploitant ces fonctionnalités avancées. Vous avez également découvert les nouvelles fonctionnalités de Gemini 2.0 et vous avez appris à migrer entre les API avec le nouveau SDK.
Étapes suivantes et informations supplémentaires
Consultez les ressources suivantes pour en savoir plus sur Gemini :
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière modification du manuel : 11 juillet 2025
Dernier test de l'atelier : 11 juillet 2025
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.