GSP520

Descripción general
En un lab de desafío, se le proporcionarán una situación y un conjunto de tareas. En lugar de seguir instrucciones paso a paso, deberás utilizar las habilidades aprendidas en los labs del curso para decidir cómo completar las tareas por tu cuenta. Un sistema automatizado de puntuación (en esta página) mostrará comentarios y determinará si completaste tus tareas correctamente.
En un lab de desafío, no se explican conceptos nuevos de Google Cloud, sino que se espera que amplíes las habilidades que adquiriste, como cambiar los valores predeterminados y leer o investigar los mensajes de error para corregir sus propios errores.
Debe completar correctamente todas las tareas dentro del período establecido para obtener una puntuación del 100%.
Se recomienda este lab a estudiantes que se hayan inscrito en la insignia de habilidad Inspecciona documentos enriquecidos con Gemini multimodal y RAG multimodal. ¿Aceptas el desafío?
Temas evaluados
- Usar instrucciones multimodales para extraer información de datos visuales y de texto, generar la descripción de un video y recuperar información adicional más allá del video utilizando la multimodalidad con Gemini
- Crear metadatos de documentos que contienen imágenes y texto, obtener todos los fragmentos de texto relevantes y, luego, imprimir las citas con la Generación mejorada por recuperación (RAG) multimodal con Gemini
Configuración y requisitos
Antes de hacer clic en el botón Comenzar lab
Lee estas instrucciones. Los labs cuentan con un temporizador que no se puede pausar. El temporizador, que comienza a funcionar cuando haces clic en Comenzar lab, indica por cuánto tiempo tendrás a tu disposición los recursos de Google Cloud.
Este lab práctico te permitirá realizar las actividades correspondientes en un entorno de nube real, no en uno de simulación o demostración. Para ello, se te proporcionan credenciales temporales nuevas que utilizarás para acceder a Google Cloud durante todo el lab.
Para completar este lab, necesitarás lo siguiente:
- Acceso a un navegador de Internet estándar. Se recomienda el navegador Chrome.
Nota: Usa una ventana del navegador privada o de incógnito (opción recomendada) para ejecutar el lab. Así evitarás conflictos entre tu cuenta personal y la cuenta de estudiante, lo que podría generar cargos adicionales en tu cuenta personal.
- Tiempo para completar el lab (recuerda que, una vez que comienzas un lab, no puedes pausarlo).
Nota: Usa solo la cuenta de estudiante para este lab. Si usas otra cuenta de Google Cloud, es posible que se apliquen cargos a esa cuenta.
Abre el notebook en Vertex AI Workbench
-
En el menú de navegación (
) de la consola de Google Cloud, haz clic en Vertex AI > Workbench.
-
Busca la instancia y haz clic en el botón Abrir JupyterLab.
La interfaz de JupyterLab para tu instancia de Workbench se abrirá en una pestaña nueva del navegador.
Nota: Si no ves notebooks en JupyterLab, sigue estos pasos adicionales para restablecer la instancia:
1. Cierra la pestaña del navegador de JupyterLab y vuelve a la página principal de Workbench.
2. Selecciona la casilla de verificación junto al nombre de la instancia y haz clic en Restablecer.
3. Después de que se vuelva a habilitar el botón Abrir JupyterLab, espera un minuto y, luego, haz clic en Abrir JupyterLab.
Configura el notebook
-
Haz clic en el archivo .
-
En el cuadro de diálogo Seleccionar kernel, elige Python 3 en la lista de kernels disponibles.
-
Ejecuta las 4 celdas en la sección Configuración y requisitos del notebook (antes de llegar a la tarea 1).
-
Usa la siguiente información para inicializar el SDK de IA generativa para Python en tu proyecto:
- En ID del proyecto, ingresa
- En Ubicación, ingresa
Situación del desafío
Eres un coordinador de campañas de marketing en una empresa de medios de comunicación y colaboras estrechamente con el gerente de Marketing para planificar, ejecutar y evaluar campañas para cumplir con los objetivos de ventas. Recientemente, conseguiste un emocionante contrato nuevo con Google. Como coordinador de campañas de marketing, te entusiasma adentrarte lo antes posible en los materiales que te ayudarán a familiarizarte con la marca y la identidad de marca de Google. Por lo tanto, planeas revisar los lineamientos de la marca de Google, sus campañas anteriores, los anuncios de productos, los testimonios de los clientes y los informes financieros aprovechando las capacidades innovadoras de Gemini para obtener información más detallada sobre Google de forma más eficiente.
En este desafío, comienzas con instrucciones multimodales para extraer información de datos visuales y de texto, generar la descripción de un video y recuperar información adicional más allá del video utilizando la multimodalidad con Gemini. También crearás metadatos de documentos que contienen imágenes y texto, obtendrás todos los fragmentos de texto relevantes y, luego, imprimirás las citas con la Generación mejorada por recuperación (RAG) multimodal con Gemini.
Tarea 1: Genera estadísticas multimodales con Gemini
En esta tarea, conocerás la marca y la identidad de marca de Google con Gemini, que es un modelo multimodal que admite instrucciones multimodales. Incluirás texto, imágenes y video en las solicitudes de instrucciones para obtener respuestas de texto o código.
Para completar esta tarea, sigue las instrucciones en las secciones especificadas del notebook.
Nota: Guarda la secuencia de comandos del notebook antes de hacer clic en el botón Revisar mi progreso en cada tarea.
- Para estudiar varias imágenes con un modelo multimodal, sigue las instrucciones de la sección Comprensión de imágenes en varias imágenes.
Para verificar este objetivo, haz clic en Revisar mi progreso.
Comprender imágenes en varias imágenes
- Para comparar imágenes con un modelo multimodal, sigue las instrucciones de la sección Similitudes/diferencias entre imágenes.
Para verificar este objetivo, haz clic en Revisar mi progreso.
Obtener similitudes y diferencias entre imágenes
-
Para generar una descripción de video con un modelo multimodal, sigue las instrucciones de la sección Genera una descripción de video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Para extraer etiquetas de objetos a lo largo de un video con un modelo multimodal, sigue las instrucciones de la sección Extrae etiquetas de objetos a lo largo del video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
-
Para explorar el video con más detalle con un modelo multimodal, sigue las instrucciones de la sección Realiza más preguntas sobre un video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Para obtener aún más información sobre las imágenes con un modelo multimodal, sigue las instrucciones de la sección Recupera información adicional más allá del video.
Para verificar este objetivo, haz clic en Revisar mi progreso.
Generar una descripción de video y recuperar información adicional más allá del video
Tarea 2. Recupera e integra conocimientos con la Generación mejorada por recuperación (RAG) multimodal
Para completar esta tarea, sigue las instrucciones en las secciones especificadas del notebook.
Datos disponibles y funciones auxiliares para usar en la tarea 2:
-
El documento de las Condiciones del Servicio de los servicios de Google, que define la relación entre Google y sus usuarios. Aborda lo que pueden esperar los usuarios de Google, las reglas para usar sus servicios, los derechos de propiedad intelectual relacionados con el contenido y los procedimientos para resolver disputas o desacuerdos. Este documento de muestra solo contiene texto.
-
Una versión modificada de Google-10K que proporciona una descripción general completa del rendimiento financiero, las operaciones comerciales, la administración y los factores de riesgo de la empresa. Ya que el documento original es bastante grande, usarás una versión modificada de solo 14 páginas, dividida en dos partes: Parte 1 y Parte 2. Aunque está truncado, el documento de muestra contiene texto e imágenes, como tablas y gráficos.
También seleccionarás algunas de las siguientes funciones auxiliares para completar las tareas que se indican a continuación. Para obtener más información sobre estas funciones, consulta GitHub:
-
Para la función de inspeccionar los metadatos de texto procesados, ten en cuenta lo siguiente:
-
text: El texto original de la página
-
text_embedding_page: El embedding del texto original de la página
-
chunk_text: El texto original dividido en fragmentos más breves
-
chunk_number: El índice de cada fragmento de texto
-
text_embedding_chunk: El embedding de cada fragmento de texto
-
Para la función de inspeccionar los metadatos de imagen procesados:
-
img_desc: Descripción textual generada por Gemini de la imagen
-
mm_embedding_from_text_desc_and_img: Embedding combinado de la imagen y su descripción que captura información visual y textual
-
mm_embedding_from_img_only: Embedding de imagen sin descripción, para compararla con el análisis basado en la descripción
-
text_embedding_from_image_description: Embedding de texto independiente de la descripción generada que permite la comparación y el análisis textual
-
Para importar las funciones auxiliares para implementar la función de RAG, ten en cuenta lo siguiente:
-
get_similar_text_from_query(): Con una consulta de texto, encuentra texto pertinente en el documento utilizando el algoritmo de similitud de coseno. Usa embeddings de texto de los metadatos para el procesamiento. Los resultados se pueden filtrar por calificación principal, número de página/fragmento o tamaño del embedding.
-
print_text_to_text_citation(): Imprime la fuente (cita) y los detalles del texto recuperado de la función
get_similar_text_from_query()
.
-
get_similar_image_from_query(): Con una ruta de imagen o una imagen, encuentra imágenes relevantes en el documento. Usa la incorporación de imágenes de los metadatos.
-
print_text_to_image_citation(): Imprime la fuente (cita) y los detalles de las imágenes recuperadas de la función `get_similar_image_from_query()``.
-
get_gemini_response(): Interactúa con un modelo de Gemini para responder preguntas basadas en una combinación de entradas de imagen y texto.
-
display_images(): Muestra una serie de imágenes proporcionadas como rutas o como objetos de imagen de PIL.
-
Para importar y ejecutar funciones auxiliares, sigue las instrucciones de la sección Crea metadatos de documentos que contienen imágenes y texto.
-
Para trabajar con las variables proporcionadas, sigue las instrucciones de la sección Crea una consulta del usuario.
-
Para recuperar fragmentos de texto pertinentes según la consulta, sigue las instrucciones de la sección Obtén todos los fragmentos de texto pertinentes.
-
Para organizar los fragmentos de texto, sigue las instrucciones en Crea context_text.
-
Para pasar el contexto a Gemini y generar una respuesta, sigue las instrucciones para pasar el contexto a Gemini.
Para verificar este objetivo, haz clic en Revisar mi progreso.
Recuperar e integrar conocimientos con la Generación mejorada por recuperación (RAG) multimodal
¡Felicitaciones!
Tras completar este lab de desafío, demostraste que puedes aprovechar las APIs de Gemini para generar texto, crear llamadas a funciones y describir contenidos de video. Gracias a tu trabajo, se garantizó que estas funciones cumplieran con los estándares esperados antes de implementarlas en producción. ¡Bien hecho!

Próximos pasos/Más información
Consulta los siguientes recursos para obtener más información sobre Gemini:
Capacitación y certificación de Google Cloud
Recibe la formación que necesitas para aprovechar al máximo las tecnologías de Google Cloud. Nuestras clases incluyen habilidades técnicas y recomendaciones para ayudarte a avanzar rápidamente y a seguir aprendiendo. Para que puedas realizar nuestros cursos cuando más te convenga, ofrecemos distintos tipos de capacitación de nivel básico a avanzado: a pedido, presenciales y virtuales. Las certificaciones te ayudan a validar y demostrar tus habilidades y tu conocimiento técnico respecto a las tecnologías de Google Cloud.
Última actualización del manual: 11 de julio de 2025
Prueba más reciente del lab: 11 de julio de 2025
Copyright 2025 Google LLC. All rights reserved. Google y el logotipo de Google son marcas de Google LLC. Los demás nombres de productos y empresas pueden ser marcas de las respectivas empresas a las que estén asociados.