Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

Comienza a usar Vertex AI Studio

Lab 1 hora universal_currency_alt 1 crédito show_chart Introductorio

GSP1154
Descripción general
Configuración y requisitos
Tarea 1. Analiza imágenes con la función multimodal de Gemini
Tarea 2. Explora las capacidades multimodales
Tarea 3. Diseña instrucciones con los modos de formato libre y estructurado
Tarea 4. Genera conversaciones
¡Felicitaciones!

Test and share your knowledge with our community!

done

Get access to over 700 hands-on labs, skill badges, and courses

GSP1154

Labs de autoaprendizaje de Google Cloud

Descripción general

Vertex AI es una plataforma integral para el desarrollo del aprendizaje automático que ofrece capacidades predictivas y de IA generativa. Te permite entrenar, evaluar y también implementar modelos de aprendizaje automático predictivos con fines de previsión. Además, la puedes usar para descubrir, adaptar y entregar modelos de IA generativa para producir contenido.

Vertex AI Studio te permite probar y personalizar con rapidez modelos de IA generativa para que puedas aprovechar sus capacidades en tus aplicaciones. Proporciona varios recursos y herramientas, incluidos IU (interfaces de usuario) y ejemplos de programación, que facilitan comenzar a usar la IA generativa, incluso si no cuentas con una formación en aprendizaje automático.

En este lab práctico, se te guiará por Vertex AI Studio para aprovechar el potencial de los modelos de IA generativa de vanguardia. Explorarás Gemini multimodal y lo usarás para analizar imágenes, diseñar instrucciones y generar conversaciones directamente en la consola de Google Cloud. No se necesitan APIs ni SDK de Python; se puede acceder a todo a través de una interfaz de usuario intuitiva.

Objetivos

En este lab, realizarás las siguientes tareas:

Analizar imágenes con la función multimodal de Gemini
Explorar las capacidades multimodales
Diseñar instrucciones con los modos de formato libre y estructurado
Generar conversaciones

Configuración y requisitos

Antes de hacer clic en el botón Comenzar lab

Lee estas instrucciones. Los labs son cronometrados y no se pueden pausar. El cronómetro, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.

Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.

Para completar este lab, necesitarás lo siguiente:

Acceso a un navegador de Internet estándar (se recomienda el navegador Chrome)

Nota: Usa una ventana de navegador privada o de Incógnito para ejecutar este lab. Así evitarás cualquier conflicto entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.

Tiempo para completar el lab: Recuerda que, una vez que comienzas un lab, no puedes pausarlo.

Nota: Si ya tienes un proyecto o una cuenta personal de Google Cloud, no los uses en este lab para evitar cargos adicionales en tu cuenta.

Cómo iniciar su lab y acceder a la consola de Google Cloud

Haga clic en el botón Comenzar lab. Si debe pagar por el lab, se abrirá una ventana emergente para que seleccione su forma de pago. A la izquierda, se encuentra el panel Detalles del lab que tiene estos elementos:
- El botón Abrir la consola de Google
- Tiempo restante
- Las credenciales temporales que debe usar para el lab
- Otra información para completar el lab, si es necesaria
Haga clic en Abrir la consola de Google. El lab inicia recursos y abre otra pestaña en la que se muestra la página de acceso.

Sugerencia: Ordene las pestañas en ventanas separadas, una junto a la otra.
Nota: Si ve el diálogo Elegir una cuenta, haga clic en Usar otra cuenta.
Si es necesario, copie el nombre de usuario del panel Detalles del lab y péguelo en el cuadro de diálogo Acceder. Haga clic en Siguiente.
Copie la contraseña del panel Detalles del lab y péguela en el cuadro de diálogo de bienvenida. Haga clic en Siguiente.
Importante: Debe usar las credenciales del panel de la izquierda. No use sus credenciales de Google Cloud Skills Boost. Nota: Usar su propia Cuenta de Google podría generar cargos adicionales.
Haga clic para avanzar por las páginas siguientes:
- Acepte los términos y condiciones.
- No agregue opciones de recuperación o autenticación de dos factores (esta es una cuenta temporal).
- No se registre para obtener pruebas gratuitas.

Después de un momento, se abrirá la consola de Cloud en esta pestaña.

Nota: Para ver el menú con una lista de los productos y servicios de Google Cloud, haga clic en el Menú de navegación que se encuentra en la parte superior izquierda de la pantalla. Ícono del menú de navegación

Habilita la API de Vertex AI

En la consola de Google Cloud, escribe API de Vertex AI en la barra de búsqueda de la parte superior.
Haz clic en el resultado de API de Vertex AI en Marketplace y APIs.
Haz clic en Habilitar.

Haz clic en Revisar mi progreso para verificar los objetivos.

Habilitar la API de Vertex AI

Tarea 1. Analiza imágenes con la función multimodal de Gemini

En la consola de Google Cloud, navega al menú de navegación ()> Inteligencia Artificial > Vertex AI> Vertex AI Studio > Descripción general.

Nota: Si no ves Vertex AI en el menú de navegación, haz clic en el menú desplegable Más productos.

Encontrarás cuatro funciones: Multimodal, Lenguaje, Vision y Voz. Te enfocarás en las dos primeras.

En Multimodal powered by Gemini, haz clic en Probar Gemini.

Nota: La IU contiene tres secciones principales:

Instrucción (ubicada en la parte superior): Aquí, puedes crear una tarea que utilice capacidades multimodales.

Configuración (ubicada a la derecha): Esta sección te permite seleccionar modelos, configurar parámetros y obtener el código correspondiente.

Respuesta (ubicada en la parte inferior): En esta sección, se muestran los resultados de tu tarea.

Asígnale el nombre Análisis de imágenes a la instrucción.
Descarga la imagen de muestra. Haz clic con el botón derecho en la imagen del horario y, luego, guárdala en el escritorio.

Genera un título para la imagen. Haz clic en Insertar contenido multimedia > Subir desde mi computadora en la esquina superior derecha y sube la imagen del horario. El contenido multimedia pueden ser imágenes o videos. Copia lo siguiente y haz clic en Enviar.

Title the image.

O hazlo más específico:

Title the image in 3 words.

¿El título cumple con tus expectativas? Intenta modificar la instrucción para ver si obtienes resultados diferentes.

Describe la imagen. Reemplaza la instrucción anterior por lo siguiente y haz clic en Enviar.

Describe the image in detail.

Ajusta el parámetro. Desplázate de izquierda (0) a derecha (1) para ajustar la temperatura. Vuelve a enviar la instrucción para observar cualquier cambio en el resultado, en comparación con el resultado anterior.

Nota: La temperatura controla el grado de aleatoriedad en la selección de tokens. Las temperaturas más bajas son buenas para las instrucciones que esperan una respuesta verdadera o correcta, mientras que las temperaturas más altas pueden generar resultados más diversos o inesperados. Con una temperatura de 0, siempre se selecciona el token de mayor probabilidad.

Extrae el texto de la imagen. Reemplaza la instrucción anterior por lo siguiente:

Read the text in the image.

Además, si quieres darle formato al resultado como una lista, reemplaza la instrucción anterior por lo siguiente:

Parse the time and city in this image into a list with two columns: time and city.

Es tu turno: prueba crear distintas instrucciones. ¿En qué se diferencian estos resultados de los anteriores?

Analiza la información de la imagen. Reemplaza la instrucción anterior por lo siguiente:

Calculate the percentage of the flights to different continents.

¿El resultado cumple con tus expectativas? Te recomendamos que pruebes diferentes instrucciones para distintas tareas. También te recomendamos que experimentes con diferentes parámetros de configuración de temperatura para observar los cambios en el resultado.

Guarda la instrucción. Una vez que termines el diseño de la instrucción, haz clic en Guardar en la parte superior derecha y, luego, confirma con Guardar. Para encontrar las instrucciones guardadas, navega a Multimodal > Mis instrucciones.

Haz clic en Revisar mi progreso para verificar los objetivos.

Extraer el contenido de la imagen

Tarea 2. Explora las capacidades multimodales

Además de las imágenes y el texto, el modelo multimodal de Gemini puede aceptar videos como entradas y generar texto como salida. Te recomendamos que lo pruebes por tu cuenta. Para ello, sube un video corto y experimenta con diferentes instrucciones. Para ver un video de muestra, puedes usar gs://spls/gsp154/video/train.mp4 (versión preliminar).

El modelo multimodal con la tecnología de Gemini ofrece muchas funciones, como la escritura de historias a partir de imágenes, el análisis de videos y la generación de anuncios multimedia. Explora más casos de uso multimodales haciendo clic en Multimodal > Ejemplos de instrucciones. Obtén más información sobre cómo diseñar instrucciones multimodales.

Tarea 3. Diseña instrucciones con los modos de formato libre y estructurado

En el menú de Vertex AI, en la página Vertex AI Studio > Descripción general, haz clic en Abrir en Language Powered by Gemini.

Crea la instrucción

La opción para crear instrucciones te permite diseñar instrucciones sobre tareas relevantes para tu caso de uso empresarial, incluida la generación de código.

Haz clic en el botón Instrucción de texto (Text prompt), como se muestra en la siguiente imagen. La IU puede diferir un poco de esta captura de pantalla.

Haz clic en Instrucción de texto

Puedes colocar el cursor o hacer clic en los botones ? en la parte derecha de la página para obtener más información sobre cada campo y parámetro, como Temperatura y Límite de tokens.

Diseño de instrucciones

Puedes proporcionarle al modelo el texto de entrada que desees, por ejemplo, una pregunta. El modelo ofrecerá una respuesta basándose en cómo hayas estructurado tu instrucción. El proceso de determinar y diseñar el mejor texto de entrada (instrucción) para obtener la respuesta deseada del modelo se llama Diseño de instrucciones.

Aún no existe una mejor forma de diseñar instrucciones. Existen 3 métodos que puedes usar para dar forma a la respuesta del modelo:

La instrucción sin ejemplos es un método en el que se proporciona al LLM solo una instrucción que describe la tarea, sin datos adicionales. Por ejemplo, si quieres que el LLM responda una pregunta, solo escribe la instrucción: “¿Qué es el diseño de instrucciones?”.
La instrucción con un solo ejemplo es un método donde se proporciona al LLM un solo ejemplo de la tarea que se le pide que realice. Por ejemplo, si quieres que el LLM escriba un poema, puedes proporcionarle solo un poema de ejemplo.
La instrucción con ejemplos limitados es un método donde se proporciona al LLM una pequeña cantidad de ejemplos de la tarea que se le pide que realice. Por ejemplo, si deseas que el LLM escriba un artículo de noticia, puedes proporcionarle algunos para leer.

Es posible que también veas las pestañas FORMATO LIBRE y ESTRUCTURADO. Esos son los dos modos que puedes usar cuando diseñas tu instrucción.

El FORMATO LIBRE es un modo que proporciona un enfoque libre y simple para diseñar tu instrucción. Es adecuado para instrucciones cortas y experimentales sin ejemplos adicionales. Usarás esto para explorar las instrucciones sin ejemplos.
El modo ESTRUCTURADO proporciona un enfoque de plantilla fácil de usar para el diseño de instrucciones. Con este modo, se puede agregar contexto y varios ejemplos a la instrucción. Esto resulta útil sobre todo para los métodos de instrucciones con un solo ejemplo o con ejemplos limitados que explorarás más tarde.

Modo FORMATO LIBRE

Prueba las instrucciones sin ejemplos en el modo FORMATO LIBRE.

Copia lo siguiente sobre el campo de entrada de la instrucción. Mantén la configuración del modelo predeterminado actual, que es gemini-1.0-pro-002. Nota: Es posible que el nombre del modelo cambie con el lanzamiento de los modelos nuevos.

What is a prompt gallery?

Haz clic en el botón ENVIAR del lado derecho de la página.

El modelo responderá con una definición completa del término prompt gallery (galería de instrucciones).

Estos son algunos ejercicios de exploración.

ajusta el parámetro del Límite de tokens a 1 y haz clic en el botón ENVIAR
ajusta el parámetro del Límite de tokens a 1,024 y haz clic en el botón ENVIAR
ajusta el parámetro de la Temperatura a 0.5 y haz clic en el botón ENVIAR
ajusta el parámetro de la Temperatura a 1.0 y haz clic en el botón ENVIAR

Inspecciona cómo se modifican las respuestas cuando cambian los parámetros.

Modo ESTRUCTURADO

Con el modo ESTRUCTURADO, puedes diseñar instrucciones de una forma más organizada. Puedes proporcionar Contexto y Ejemplos en sus respectivos campos de entrada. Esta es una buena oportunidad para aprender sobre instrucciones con un solo ejemplo o con ejemplos limitados.

En esta sección, le pedirás al modelo que complete una oración.

Vuelve a la ventana con la instrucción de texto.
En la parte superior de la página, haz clic en la pestaña ESTRUCTURADO.
Quita el texto del Contexto.
En el campo Prueba, copia lo siguiente en el campo ENTRADA.

the color of the sky is

Nota: Te recomendamos que cambies “color” por “colour” si utilizas la variante británica de la lengua inglesa.

Haz clic en el botón ENVIAR del lado derecho de la página.

En lugar de completar la oración, el modelo respondió con una oración completa, que no era lo que se quería. Intenta influir en la respuesta del modelo con una instrucción de un solo ejemplo. Esta vez, agrega un ejemplo en el que el modelo pueda basar su resultado.

En el campo Ejemplos, haz lo siguiente:

Agrega lo siguiente al campo ENTRADA:

the color of the grass is

Agrega lo siguiente al campo SALIDA:

the color of the grass is green

Haz clic en el botón ENVIAR del lado derecho de la página.

Influenciaste correctamente la forma en la que el modelo produce una respuesta.

En la próxima práctica, usarás el modelo para realizar un análisis de opiniones sobre una oración, por ejemplo, determinar si la opinión sobre una película es positiva o negativa.

Vuelve a la ventana con la instrucción de texto.
En el campo Ejemplos, borra el texto anterior de ENTRADA y de SALIDA acerca del césped verde (green grass).
En el campo Prueba, copia la siguiente instrucción sobre el campo ENTRADA.

It was a time well spent!

Haz clic en el botón ENVIAR del lado derecho de la página.

El modelo no tenía suficiente información para saber que le estabas pidiendo que hiciera un análisis de opiniones. Esto puede mejorar cuando le brindas algunos ejemplos al modelo sobre lo que buscas.

Prueba agregar ejemplos como los que se muestran en la imagen a continuación:

ENTRADA	SALIDA
Una película bien hecha y entretenida (A well-made and entertaining film)	positivo (positive)
Me quedé dormido luego de 10 minutos (I fell asleep after 10 minutes)	negativo (negative)
La película estuvo bien (The movie was ok)	neutral

Luego, haz clic en el botón ENVIAR del lado derecho de la página.

El modelo ahora proporciona una opinión para el texto de entrada. Para el texto It was a time well spent! (¡No tuvo desperdicio!), la opinión es etiquetada como positive (positiva).

También puedes guardar la nueva instrucción diseñada. Para guardarla, asígnale el nombre que quieras, como prueba de análisis de opiniones, haz clic en el botón Guardar y, luego, selecciona la región de tu lab. Haz clic en GUARDAR.

(Si te aparece un error mientras guardas, haz clic en Reintentar)

La instrucción guardada aparecerá en la pestaña MIS INSTRUCCIONES.

my-prompts-saved

Haz clic en Revisar mi progreso para verificar los objetivos.

Crear instrucciones con texto

Tarea 4. Genera conversaciones

La opción para crear un chat de texto te permite tener un chat de formato libre con el modelo, que hace un seguimiento de lo que se dijo anteriormente y responde basándose en el contexto.

Vuelve a la página Lenguaje.
Haz clic en el botón CHAT DE TEXTO (TEXT CHAT) para crear una instrucción de chat nueva.

crear instrucción de chat

En Modelo, selecciona chat-bison (latest). Verás la página nueva de la instrucción de chat.

En esta sección, agregarás contexto en el chat y dejarás al modelo responder basándose en el contexto proporcionado.

Luego, escribe el siguiente contexto en el campo Contexto.

Your name is Roy. You are a support technician of an IT department. You only respond with "Have you tried turning it off and on again?" to any queries.

Agrega el siguiente texto al chatbox en Respuestas.

My computer is so slow

Presiona la tecla Intro o haz clic en Enviar mensaje (el botón con la flecha hacia la derecha)

El modelo tendrá en cuenta el contexto adicional proporcionado y responderá las preguntas dentro de las limitaciones.

Asigna el nombre que quieras a la instrucción, haz clic en el botón Guardar y, luego, selecciona la región de tu lab. Haz clic en GUARDAR.

Haz clic en Revisar mi progreso para verificar los objetivos.

Crear conversaciones con instrucción de chat

¡Felicitaciones!

Aprendiste a analizar una imagen con la función multimodal, a explorar capacidades multimodales, a crear y probar instrucciones y a generar una conversación. Diste el primer paso para comenzar tu recorrido con Vertex AI Studio y la función multimodal de Gemini.

Capacitación y certificación de Google Cloud

Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.

Última actualización del manual: 17 de abril de 2024

Prueba más reciente del lab: 17 de abril de 2024

Copyright 2024 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.