GSP520

Visão geral
Nos laboratórios com desafio, apresentamos uma situação e um conjunto de tarefas. Para concluí-las, em vez de seguir instruções detalhadas, você usará o que aprendeu nos laboratórios do curso. Um sistema automático de pontuação (mostrado nesta página) vai avaliar seu desempenho.
Nos laboratórios com desafio, não ensinamos novos conceitos do Google Cloud. O objetivo dessas tarefas é aprimorar aquilo que você já aprendeu, como a alteração de valores padrão ou a leitura e pesquisa de mensagens para corrigir seus próprios erros.
Para alcançar a pontuação de 100%, você precisa concluir todas as tarefas no tempo definido.
Este laboratório é recomendado para estudantes que se inscreveram no curso com o selo de habilidade Inspecione documentos avançados usando a multimodalidade do Gemini e o RAG multimodal. Tudo pronto para começar o desafio?
Conhecimentos avaliados
- Usar comandos multimodais para extrair informações de dados textuais e visuais, gerar uma descrição de vídeo e recuperar mais informações além das que aparecem no vídeo usando a multimodalidade do Gemini
- Criar metadados de documentos com textos e imagens, acessar todos os blocos de texto relevantes e imprimir citações usando a geração aumentada de recuperação (RAG) multimodal com o Gemini
Configuração e requisitos
Antes de clicar no botão Começar o Laboratório
Leia estas instruções. Os laboratórios são cronometrados e não podem ser pausados. O timer é ativado quando você clica em Iniciar laboratório e mostra por quanto tempo os recursos do Google Cloud vão ficar disponíveis.
Este laboratório prático permite que você realize as atividades em um ambiente real de nuvem, e não em uma simulação ou demonstração. Você vai receber novas credenciais temporárias para fazer login e acessar o Google Cloud durante o laboratório.
Confira os requisitos para concluir o laboratório:
- Acesso a um navegador de Internet padrão (recomendamos o Chrome).
Observação: para executar este laboratório, use o modo de navegação anônima (recomendado) ou uma janela anônima do navegador. Isso evita conflitos entre sua conta pessoal e de estudante, o que poderia causar cobranças extras na sua conta pessoal.
- Tempo para concluir o laboratório: não se esqueça que, depois de começar, não será possível pausar o laboratório.
Observação: use apenas a conta de estudante neste laboratório. Se usar outra conta do Google Cloud, você poderá receber cobranças nela.
Abrir o notebook no Vertex AI Workbench
-
No menu de navegação (
) do console do Google Cloud, clique em Vertex AI > Workbench.
-
Ache a instância e clique no botão Abrir o JupyterLab.
A interface do JupyterLab para sua instância do Workbench é aberta em uma nova guia do navegador.
Observação: se você não encontrar notebooks no JupyterLab, siga estas etapas para redefinir a instância:
1. Feche a guia do JupyterLab no navegador e volte à página inicial do Workbench.
2. Marque a caixa de seleção ao lado do nome da instância e clique em Redefinir.
3. Depois que o botão Abrir o JupyterLab for ativado novamente, aguarde um minuto e clique em Abrir o JupyterLab.
Configurar o notebook
-
Clique no arquivo .
-
Na caixa de diálogo Selecionar Kernel, escolha Python 3 na lista de kernels disponíveis.
-
Execute as 4 células na seção Configuração e requisitos do notebook (antes de realizar a Tarefa 1).
-
Use as informações a seguir para inicializar o SDK da IA generativa para Python no seu projeto:
- Em ID do projeto, insira
- Em Local, insira
Cenário do desafio
Você coordena campanhas de marketing em uma empresa de mídia, trabalhando com a pessoa responsável pelo marketing para planejar, executar e avaliar campanhas e cumprir metas de vendas. Recentemente, você garantiu um ótimo contrato com o Google. Como coordenador de campanhas de marketing, você mal pode esperar para estudar os materiais que vão ajudar você a conhecer o Google e a identidade da marca o mais rápido possível. Você planeja revisar diretrizes, campanhas anteriores, anúncios de produtos, depoimentos de clientes e relatórios financeiros do Google com a ajuda dos recursos inovadores do Gemini. Assim, você consegue ter mais insights sobre o Google com mais eficiência.
Para isso, você usa a multimodalidade do Gemini e começa com comandos multimodais para extrair informações de dados textuais e visuais, gerando uma descrição de vídeo e recuperando mais informações além das que aparecem no vídeo. Além disso, você cria metadados de documentos com textos e imagens, acessando todos os blocos de texto relevantes e imprimindo citações usando a geração aumentada de recuperação (RAG) multimodal com o Gemini.
Tarefa 1: gerar insights multimodais com o Gemini
Nesta tarefa, você vai conhecer o Google e a identidade da marca dele usando o Gemini, um modelo que aceita comandos multimodais. É possível incluir textos, imagens e vídeos nos comandos para receber respostas em texto ou código.
Para concluir esta tarefa, siga as instruções nas seções especificadas do notebook.
Observação: salve o script do notebook antes de clicar no botão Verificar meu progresso em cada tarefa.
- Para estudar várias imagens usando um modelo multimodal, siga as instruções na seção Compreensão de imagens em várias imagens.
Para conferir o objetivo, clique em Verificar meu progresso.
Compreensão de imagens em várias imagens.
- Para comparar imagens usando um modelo multimodal, siga as instruções na seção Semelhanças/diferenças entre imagens.
Para conferir o objetivo, clique em Verificar meu progresso.
Semelhanças/diferenças entre imagens.
-
Para criar uma descrição de vídeo usando um modelo multimodal, siga as instruções na seção Gerar uma descrição de vídeo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) para concluir esta etapa.
-
Para extrair tags de objetos em um vídeo usando um modelo multimodal, siga as instruções na seção Extrair tags de objetos em todo o vídeo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) para concluir esta etapa.
-
Para saber mais sobre o vídeo usando um modelo multimodal, siga as instruções na seção Fazer mais perguntas sobre um vídeo.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) para concluir esta etapa.
-
Para ter ainda mais dados sobre imagens usando um modelo multimodal, siga as instruções na seção Recuperar mais informações além das que aparecem no vídeo.
Para conferir o objetivo, clique em Verificar meu progresso.
Gerar uma descrição de vídeo e recuperar mais informações, além das que aparecem no vídeo.
Tarefa 2: recuperar e integrar conhecimento com geração aumentada por recuperação (RAG) multimodal
Para concluir esta tarefa, siga as instruções nas seções especificadas do notebook.
Dados e funções auxiliares disponíveis para a Tarefa 2:
-
O documento de Termos de Serviço dos serviços do Google, que define a relação entre o Google e seus usuários. Ele aborda o que os usuários podem esperar do Google, as regras para usar os serviços, os direitos de propriedade intelectual relacionados ao conteúdo e os procedimentos para resolver disputas ou desentendimentos. Esta amostra de documento só contém texto.
-
Uma versão modificada do Google-10K, que oferece uma visão geral ampla do desempenho financeiro, das operações comerciais, do gerenciamento e dos fatores de risco da empresa. Como o documento original é bem grande, você vai usar uma versão modificada com apenas 14 páginas, dividida em Parte 1 e Parte 2 (links em inglês). Mesmo sendo um resumo, a amostra ainda apresenta texto com imagens, como tabelas e gráficos.
Além disso, escolha entre estas funções auxiliares para concluir as tarefas abaixo. Para mais informações sobre as funções, consulte o GitHub (link em inglês):
-
Para a função de inspeção dos metadados de texto processado:
-
text: o texto original da página.
-
text_embedding_page: o embedding do texto original da página.
-
chunk_text: o texto original dividido em blocos menores.
-
chunk_number: o índice de cada bloco de texto.
-
text_embedding_chunk: o embedding de cada bloco de texto.
-
Para a função de inspeção dos metadados de imagens processadas:
-
img_desc: descrição textual da imagem gerada pelo Gemini.
-
mm_embedding_from_text_desc_and_img: embedding combinado da imagem e da descrição, capturando informações visuais e textuais.
-
mm_embedding_from_img_only: embedding de imagem sem descrição para comparar com a análise com descrição.
-
text_embedding_from_image_description: embedding de texto separado da descrição gerada, possibilitando análise e comparação textuais.
-
Para a função de importação das funções auxiliares para implementação da RAG:
-
get_similar_text_from_query(): considerando uma consulta de texto, encontra textos relevantes do documento usando algoritmo de similaridade de cossenos. Essa função usa os embeddings de texto dos metadados para fazer cálculos. Os resultados podem ser filtrados por maior pontuação, número da página/do bloco ou tamanho do embedding.
-
print_text_to_text_citation(): imprime a origem (citação) e os detalhes do texto recuperado da função
get_similar_text_from_query()
.
-
get_similar_image_from_query(): considerando um caminho de imagem ou uma imagem, encontra imagens relevantes do documento. Usa embeddings de imagens dos metadados.
-
print_text_to_image_citation(): imprime a origem (citação) e os detalhes de imagens recuperadas da função "get_similar_image_from_query()".
-
get_gemini_response(): interage com um modelo do Gemini para responder às perguntas com base em uma combinação de entradas de texto e imagem.
-
display_images(): mostra diversas imagens fornecidas como caminhos ou objetos de imagem da PIL.
-
Para importar e executar funções auxiliares, siga as instruções na seção Criar metadados de documentos com texto e imagens.
-
Para trabalhar com as variáveis fornecidas, siga as instruções na seção Criar uma consulta de usuário.
-
Para recuperar blocos de texto relevantes com base na consulta, siga as instruções na seção Acessar todos os blocos de texto relevantes.
-
Para organizar os blocos de texto, siga as instruções em Criar context_text.
-
Para transmitir o contexto ao Gemini e gerar uma resposta, siga as instruções em Transmitir contexto para o Gemini.
Para conferir o objetivo, clique em Verificar meu progresso.
Recuperar e integrar conhecimento com geração aumentada de recuperação (RAG) multimodal.
Parabéns!
Ao concluir este laboratório com desafio, você demonstrou que pode usar as APIs do Gemini para gerar texto, criar chamadas de função e descrever o conteúdo de vídeos. Seu trabalho garantiu que os recursos atingissem os padrões determinados antes da implantação na produção. Parabéns!

Próximas etapas / Saiba mais
Confira os recursos a seguir para saber mais sobre o Gemini:
Treinamento e certificação do Google Cloud
Esses treinamentos ajudam você a aproveitar as tecnologias do Google Cloud ao máximo. Nossas aulas incluem habilidades técnicas e práticas recomendadas para ajudar você a alcançar rapidamente o nível esperado e continuar sua jornada de aprendizado. Oferecemos treinamentos que vão do nível básico ao avançado, com opções de aulas virtuais, sob demanda e por meio de transmissões ao vivo para que você possa encaixá-las na correria do seu dia a dia. As certificações validam sua experiência e comprovam suas habilidades com as tecnologias do Google Cloud.
Manual atualizado em 11 de julho de 2025
Laboratório testado em 11 de julho de 2025
Copyright 2025 Google LLC. Todos os direitos reservados. Google e o logotipo do Google são marcas registradas da Google LLC. Todos os outros nomes de produtos e empresas podem ser marcas registradas das respectivas empresas a que estão associados.