Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

Premiers pas avec Vertex AI Studio

Lab 1 heure universal_currency_alt 1 crédit show_chart Débutant

GSP1154
Présentation
Préparation
Tâche 1 : Analyser des images avec Gemini multimodal
Tâche 2 : Explorer les fonctionnalités multimodales
Tâche 3 : Créer des requêtes en mode "forme libre" et "structuré"
Tâche 4 : Générer des conversations
Félicitations !

Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

GSP1154

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Vertex AI est une plate-forme de développement de machine learning complète qui offre des fonctionnalités d'IA prédictive et générative. Elle permet d'entraîner, d'évaluer et de déployer des modèles de machine learning prédictifs à des fins de prévision. Vous pouvez également utiliser la plate-forme pour découvrir, régler et diffuser des modèles d'IA générative permettant de générer des contenus.

Vertex AI Studio vous permet de tester et de personnaliser rapidement des modèles d'IA générative afin d'exploiter leurs capacités dans vos applications. La plate-forme fournit un large éventail d'outils et de ressources, y compris une interface utilisateur (UI) et des exemples de code, qui vous aident à vous lancer avec l'IA générative même sans aucune expérience en machine learning.

Dans cet atelier pratique, vous allez découvrir Vertex AI Studio et apprendre à exploiter tout le potentiel des modèles d'IA générative de pointe. Vous explorerez Gemini multimodal et vous l'utiliserez pour analyser des images, concevoir des requêtes et générer des conversations directement dans la console Google Cloud. Pas besoin d'API ni de SDK Python : tout est accessible via une interface utilisateur intuitive.

Objectifs

Dans cet atelier, vous allez réaliser les tâches suivantes :

Analyser des images avec Gemini multimodal
Explorer les fonctionnalités multimodales
Créer des requêtes en mode "Forme libre" et "Structuré"
Générer des conversations

Préparation

Avant de cliquer sur le bouton "Démarrer l'atelier"

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Nous vous fournissons des identifiants temporaires pour vous connecter à Google Cloud le temps de l'atelier.

Pour réaliser cet atelier :

vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;

Remarque : Ouvrez une fenêtre de navigateur en mode incognito/navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le temporaire étudiant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.

vous disposez d'un temps limité ; une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier afin d'éviter que des frais supplémentaires ne vous soient facturés.

Démarrer l'atelier et se connecter à la console Google Cloud

Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.
Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Activer l'API Vertex AI

Accédez à la console Google Cloud et saisissez API Vertex AI dans la barre de recherche supérieure.
Dans les résultats, cliquez sur API Vertex AI sous "Marketplace et API".
Cliquez sur Activer.

Cliquez sur Vérifier ma progression pour valider les objectifs.

Activer l'API Vertex AI

Tâche 1 : Analyser des images avec Gemini multimodal

Dans la console Google Cloud, accédez au menu de navigation () > Intelligence artificielle > Vertex AI > Vertex AI Studio > Vue d'ensemble.

Remarque : Si vous ne voyez pas Vertex AI dans le menu de navigation, cliquez sur le menu déroulant Plus de produits.

Quatre fonctionnalités sont disponibles : Multimodal, Langage, Vision et Voix. Dans cet atelier, vous allez vous concentrer sur les deux premières.

Sous Multimodal fourni par Gemini, cliquez sur Essayer Gemini.

Remarque : L'interface utilisateur se compose de trois sections principales :

Requête (située en haut) : cette section vous permet de créer une tâche qui utilise les fonctionnalités multimodales.

Configuration (située à droite) : cette section vous permet de sélectionner des modèles, de configurer les paramètres et d'obtenir le code correspondant.

Réponse (située en bas) : cette section affiche les résultats de votre tâche.

Nommez votre requête Image analysis.
Téléchargez l'image d'exemple. Effectuez un clic droit sur l'image du tableau d'horaires, puis enregistrez-la sur votre bureau.

Générez un titre pour l'image. En haut à droite, cliquez sur Insérer un média > Importer depuis l'ordinateur, puis importez l'image du tableau d'horaires. Les fichiers multimédias peuvent être des images ou des vidéos. Copiez la requête suivante, puis cliquez sur Envoyer.

Title the image.

Vous pouvez aussi être plus précis :

Title the image in 3 words.

Le titre répond-il à vos attentes ? Essayez de modifier la requête pour voir si vous obtenez des résultats différents.

Décrivez l'image. Remplacez la requête précédente par celle proposée ci-dessous, puis cliquez sur Envoyer.

Describe the image in detail.

Réglez le paramètre. Ajustez la température en déplaçant le curseur de la gauche (0) vers la droite (1). Renvoyez la requête et observez toute modification du résultat par rapport au résultat précédent.

Remarque : La température permet de contrôler le degré de hasard dans la sélection des jetons. Des températures basses sont idéales pour les requêtes visant une réponse vraie ou correcte, tandis que des températures plus élevées peuvent entraîner des résultats plus diversifiés ou inattendus. Avec une température de 0, le jeton dont la probabilité est la plus élevée est toujours sélectionné.

Extrayez le texte de l'image. Remplacez la requête précédente par ce qui suit :

Read the text in the image.

Ensuite, si vous souhaitez que le résultat soit présenté sous forme de liste, remplacez la requête que vous venez d'effectuer par ce qui suit :

Parse the time and city in this image into a list with two columns: time and city.

À vous de jouer : testez d'autres requêtes ! En quoi ces résultats sont-ils différents des précédents ?

Analysez les informations contenues dans l'image. Remplacez la requête précédente par ce qui suit :

Calculate the percentage of the flights to different continents.

Le résultat répond-il à vos attentes ? Nous vous encourageons vivement à tester différentes requêtes pour diverses tâches. Vous êtes également invité à tester différents paramètres de température pour observer les variations du résultat.

Enregistrez la requête. Une fois que vous avez terminé de concevoir la requête, enregistrez-la en cliquant sur Enregistrer en haut à droite, puis confirmez en sélectionnant Enregistrer. Pour retrouver vos requêtes enregistrées, accédez à Multimodal > Mes requêtes.

Cliquez sur Vérifier ma progression pour valider les objectifs.

Extraire le contenu de l'image

Tâche 2 : Explorer les fonctionnalités multimodales

Outre le fait de traiter les images et le texte, Gemini multimodal peut également accepter en entrée des vidéos et générer du texte en sortie. Nous vous encourageons à tester cette fonctionnalité par vous-même en important une courte vidéo et en testant différentes requêtes. Comme échantillon vidéo, vous pouvez utiliser le fichier gs://spls/gsp154/video/train.mp4 (preview).

Le modèle "Multimodal fourni par Gemini" offre de nombreuses fonctionnalités telles que la rédaction de récits à partir d'images, l'analyse de vidéos et la génération d'annonces multimédias. Découvrez d'autres cas d'utilisation multimodaux en cliquant sur Multimodal > Exemples de requêtes. Consultez des informations supplémentaires sur la conception de requêtes multimodales.

Tâche 3 : Créer des requêtes en mode "forme libre" et "structuré"

Dans le menu Vertex AI, accédez à la page Vertex AI Studio > Vue d'ensemble, puis cliquez sur "Ouvrir" pour Langage fourni par Gemini.

Créer une requête

Créer des requêtes vous permet d'exécuter des tâches pertinentes pour votre cas d'utilisation métier, par exemple de générer du code.

Cliquez sur le bouton Requête textuelle, comme illustré dans l'image ci-dessous. L'interface utilisateur peut être légèrement différente de celle présentée sur cette capture d'écran.

click-text-prompt

Vous pouvez pointer ou cliquer sur les boutons ? sur la droite de la page pour en savoir plus sur chaque champ et paramètre, par exemple "Température" et "Limite de jetons".

Conception de requête

Vous pouvez saisir le texte de votre choix, par exemple une question. Ensuite, le modèle renvoie une réponse en fonction de la structure de votre requête. La conception de requête désigne le processus consistant à créer le meilleur texte d'entrée (requête) pour obtenir le résultat attendu du modèle.

C'est actuellement la technique la plus efficace pour créer des requêtes. Vous disposez de trois méthodes pour façonner la réponse du modèle :

Requête zero-shot : le LLM ne reçoit qu'une requête décrivant la tâche, sans aucune donnée supplémentaire. Par exemple, si le LLM doit répondre à une question, vous pouvez simplement lui envoyer une requête du type : "Qu'est-ce que la conception de requête ?".
Requête one-shot : le LLM reçoit un seul exemple de la tâche qu'on lui demande d'accomplir. Ainsi, si vous souhaitez que le LLM écrive un poème, vous pouvez lui donner un exemple de poème unique.
Requête few-shot : le LLM reçoit quelques exemples de la tâche qu'on lui demande d'accomplir. Si vous souhaitez que le LLM écrive un article d'actualité, vous pouvez lui donner plusieurs exemples d'articles à lire.

Vous remarquerez également les onglets FORME LIBRE et STRUCTURÉ. Ils correspondent aux deux modes disponibles lorsque vous créez une requête.

FORME LIBRE : ce mode offre une approche libre et intuitive de la conception de requête. Il convient aux requêtes brèves et expérimentales, qui ne contiennent aucun exemple supplémentaire. Vous l'utiliserez pour découvrir les requêtes zero-shot.
STRUCTURÉ : ce mode fournit un modèle simple à utiliser pour concevoir vos requêtes. Il permet d'ajouter des informations contextuelles et plusieurs exemples. Il convient particulièrement aux requêtes one-shot et few-shot, que vous allez explorer par la suite.

Mode FORME LIBRE

Testez les requêtes zero-shot en mode FORME LIBRE.

Copiez la question suivante dans le champ de saisie de la requête. Conservez le paramètre actuel de modèle par défaut, à savoir gemini-1.0-pro-002. Remarque : Le nom du modèle est susceptible de changer avec la publication de nouveaux modèles.

What is a prompt gallery?

Cliquez sur le bouton ENVOYER sur la droite de la page.

Le modèle renvoie une définition complète du terme "prompt gallery" (galerie des requêtes).

Procédez à ces quelques ajustements pour tester les effets des différents paramètres :

Réglez Limite de jetons sur 1, puis cliquez sur le bouton ENVOYER.
Réglez Limite de jetons sur 1024, puis cliquez sur le bouton ENVOYER.
Réglez Température sur 0.5, puis cliquez sur le bouton ENVOYER.
Réglez Température sur 1.0, puis cliquez sur le bouton ENVOYER.

Examinez l'évolution des réponses du modèle en fonction des modifications de ces paramètres.

Mode STRUCTURÉ

Le mode STRUCTURÉ vous permet de créer des requêtes de façon plus organisée. Vous pouvez inclure du contexte et des exemples dans les champs de saisie respectifs. Cette méthode est idéale pour étudier les requêtes one-shot et few-shot.

Dans cette section, vous allez demander au modèle de terminer une phrase.

Revenez à la fenêtre affichant la requête textuelle.
En haut de la page, cliquez sur l'onglet STRUCTURÉ.
Supprimez tout le texte du contexte.
Sous la section Test, copiez l'extrait suivant dans le champ ENTRÉE.

the color of the sky is

Remarque : Vous pouvez remplacer "color" par "colour" si vous utilisez la variante britannique de la langue anglaise.

Cliquez sur le bouton ENVOYER sur la droite de la page.

Au lieu de terminer la phrase, le modèle a répondu par une phrase complète, ce qui ne correspond pas à votre objectif initial. Essayez d'influencer le résultat à l'aide de requêtes one-shot. Cette fois-ci, ajoutez un exemple sur lequel le modèle s'appuiera pour formuler sa réponse.

Sous le champ Exemples, procédez comme suit :

Ajoutez l'extrait suivant dans le champ ENTRÉE :

the color of the grass is

Ajoutez l'extrait suivant dans le champ RÉSULTAT :

the color of the grass is green

Cliquez sur le bouton ENVOYER sur la droite de la page.

Vous avez réussi à modifier la façon dont le modèle produit des réponses.

Dans le prochain exercice, vous allez utiliser le modèle pour effectuer une analyse des sentiments à partir d'une phrase. Il s'agira de déterminer si une critique de film est positive ou négative.

Revenez à la fenêtre affichant la requête textuelle.
Sous la section Exemples, effacez le texte précédemment saisi dans les champs "ENTRÉE" et "RÉSULTAT".
Sous la section Test, copiez la requête suivante dans le champ ENTRÉE.

It was a time well spent!

Cliquez sur le bouton ENVOYER sur la droite de la page.

Le modèle n'a pas reçu assez d'informations pour comprendre que vous lui demandez d'effectuer une analyse des sentiments. Pour y remédier, vous pouvez lui fournir quelques exemples du résultat escompté.

Ajoutez les exemples indiqués dans l'image ci-dessous :

ENTRÉE	RÉSULTAT
A well-made and entertaining film	positive
I fell asleep after 10 minutes	negative
The movie was ok	neutral

Ensuite, cliquez sur le bouton ENVOYER sur la droite de la page.

Le modèle répond à présent en renvoyant un sentiment basé sur le texte d'entrée. Il a classé la phrase It was a time well spent! dans la catégorie positive.

Vous pouvez aussi enregistrer votre nouvelle requête. Pour enregistrer la requête, donnez-lui le nom de votre choix, par exemple test d'analyse des sentiments, cliquez sur Enregistrer, puis sélectionnez la région associée à votre atelier. Cliquez sur ENREGISTRER.

Si une erreur se produit, veuillez cliquer sur Réessayer.

Une fois sauvegardée, la requête apparaîtra dans l'onglet MES REQUÊTES.

my-prompts-saved

Cliquez sur Vérifier ma progression pour valider les objectifs.

Créer des requêtes avec du texte

Tâche 4 : Générer des conversations

La création d'une requête de chat vous permet de dialoguer librement avec le modèle. Celui-ci garde en mémoire les conversations précédentes et fournit une réponse contextualisée.

Revenez à la page Langage.
Cliquez sur le bouton CHAT ÉCRIT pour créer une requête de chat.

create-chat-prompt

Sous Modèle, sélectionnez chat-bison (latest). Une nouvelle page de requête de chat apparaît.

Dans cette section, vous allez ajouter du contexte au chat et laisser le modèle répondre en fonction des informations que vous lui avez fournies.

Ensuite, insérez le contexte ci-dessous dans le champ Contexte.

Your name is Roy. You are a support technician of an IT department. You only respond with "Have you tried turning it off and on again?" to any queries.

Ajoutez maintenant le texte suivant sous "Réponses".

My computer is so slow

Appuyez sur Entrée ou cliquez sur Envoyer un message (bouton en forme de flèche vers la droite).

Le modèle va tenir compte du contexte fourni et répondre aux questions en respectant vos consignes.

Donnez à la requête le nom de votre choix, cliquez sur le bouton Enregistrer, puis sélectionnez la région associée à votre atelier. Cliquez sur ENREGISTRER.

Cliquez sur Vérifier ma progression pour valider les objectifs.

Créer des conversations avec une requête de chat

Félicitations !

Vous avez appris à analyser une image à l'aide du modèle multimodal, à explorer les fonctionnalités multimodales, à créer et tester une requête, et à générer une conversation. Vous voilà prêt à utiliser Vertex AI Studio et Gemini multimodal.

Formations et certifications Google Cloud

Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.

Dernière mise à jour du manuel : 17 avril 2024

Dernier test de l'atelier : 17 avril 2024

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.