In einem Challenge-Lab geht es um ein bestimmtes Szenario mit mehreren Aufgaben. Anders als bei einem normalen Lab erhalten Sie jedoch keine Schritt-für-Schritt-Anleitung, sondern nutzen die in den Labs des jeweiligen Kurses erlernten Fähigkeiten, um die Aufgaben selbst zu lösen. Ihre Lösungen werden automatisch bewertet. Die erzielten Punkte finden Sie rechts oben auf dieser Seite.
In Challenge-Labs werden keine neuen Grundlagen zu Google Cloud vermittelt. Sie sollen dabei Ihr Wissen erweitern und es wird erwartet, dass Sie beispielsweise Standardwerte ändern und Fehlermeldungen lesen und recherchieren, um Ihre eigenen Fehler zu beheben.
Die volle Punktzahl erreichen Sie nur, wenn Sie alle Aufgaben innerhalb der vorgegebenen Zeit lösen.
Multimodale Prompts verwenden, um Informationen aus Text und Bilddaten zu extrahieren; eine Videobeschreibung erstellen und anhand von Multimodalität mit Gemini zusätzliche, über das Video hinausgehende Informationen abrufen
Metadaten zu Dokumenten erstellen, die Text und Bilder enthalten, alle relevanten Textabschnitte ermitteln und anhand von multimodaler Retrieval-Augmented Generation (RAG) mit Gemini Zitate ausgeben
Einrichtung und Anforderungen
Vor dem Klick auf „Start Lab“ (Lab starten)
Lesen Sie diese Anleitung. Labs sind zeitlich begrenzt und können nicht pausiert werden. Der Timer beginnt zu laufen, wenn Sie auf Lab starten klicken, und zeigt Ihnen, wie lange Google Cloud-Ressourcen für das Lab verfügbar sind.
In diesem praxisorientierten Lab können Sie die Lab-Aktivitäten in einer echten Cloud-Umgebung durchführen – nicht in einer Simulations- oder Demo-Umgebung. Dazu erhalten Sie neue, temporäre Anmeldedaten, mit denen Sie für die Dauer des Labs auf Google Cloud zugreifen können.
Für dieses Lab benötigen Sie Folgendes:
Einen Standardbrowser (empfohlen wird Chrome)
Hinweis: Nutzen Sie den privaten oder Inkognitomodus (empfohlen), um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
Zeit für die Durchführung des Labs – denken Sie daran, dass Sie ein begonnenes Lab nicht unterbrechen können.
Hinweis: Verwenden Sie für dieses Lab nur das Teilnehmerkonto. Wenn Sie ein anderes Google Cloud-Konto verwenden, fallen dafür möglicherweise Kosten an.
Notebook in Vertex AI Workbench öffnen
Klicken Sie in der Google Cloud Console im Navigationsmenü () auf Vertex AI > Workbench.
Suchen Sie die Instanz und klicken Sie auf JupyterLab öffnen.
Die JupyterLab-Oberfläche für Ihre Workbench-Instanz wird in einem neuen Browsertab geöffnet.
Hinweis: Wenn in JupyterLab keine Notebooks angezeigt werden, führen Sie die folgenden zusätzlichen Schritte aus, um die Instanz zurückzusetzen:
1. Schließen Sie den Browsertab für JupyterLab und kehren Sie zur Workbench-Startseite zurück.
2. Aktivieren Sie das Kästchen neben dem Instanznamen und klicken Sie dann auf Zurücksetzen.
3. Nachdem die Schaltfläche JupyterLab öffnen wieder aktiviert ist, warten Sie eine Minute und klicken Sie dann auf JupyterLab öffnen.
Notebook einrichten
Klicken Sie auf die -Datei.
Wählen Sie im Dialogfeld Kernel auswählen in der Liste der verfügbaren Kernel die Option Python 3 aus.
Gehen Sie die 4 Zellen im Abschnitt Einrichtung und Anforderungen des Notebooks durch, bevor Sie mit Aufgabe 1 beginnen.
Verwenden Sie die folgenden Informationen, um das Gen AI SDK for Python in Ihrem Projekt zu initialisieren:
Geben Sie für Projekt-ID den Wert ein.
Geben Sie unter Standort den Wert ein.
Das Szenario
Sie sind für die Koordination von Marketingkampagnen in einem Medienunternehmen zuständig. Sie arbeiten eng mit der Marketingleitung zusammen, um Kampagnen zu planen, umzusetzen und zu bewerten, die der Förderung der Verkaufsziele dienen. Vor kurzem haben Sie einen interessanten neuen Vertrag mit Google abgeschlossen. Da Sie für die Koordination der Marketingkampagnen zuständig sind, können Sie es kaum erwarten, sich so schnell wie möglich mit den Materialien vertraut zu machen. Diese sollen Ihnen helfen, die Marke und Markenidentität von Google besser zu verstehen. Daher planen Sie, Markenrichtlinien, frühere Kampagnen, Produktanzeigen, Kundenbewertungen und Finanzberichte mit den innovativen Funktionen von Gemini zu analysieren, um Einblicke in die Marke Google effizient zu gewinnen.
Bei dieser Aufgabe verwenden Sie multimodale Prompts, um Informationen aus Text- und Bilddaten zu gewinnen, eine Videobeschreibung zu erstellen und zusätzliche Informationen abzurufen, die über das Video hinausgehen. Dazu nutzen Sie Multimodalität mit Gemini. Außerdem erstellen Sie Metadaten zu Dokumenten, die Text und Bilder enthalten, ermitteln alle relevanten Textabschnitte und lassen Zitate ausgeben. Hierfür verwenden Sie multimodale Retrieval-Augmented Generation (RAG) mit Gemini.
Aufgabe 1: Multimodale Daten mit Gemini generieren
In dieser Aufgabe machen Sie sich mit der Marke und Markenidentität von Google vertraut. Dazu verwenden Sie Gemini, ein Modell, das multimodale Prompts unterstützt. Sie können Texte, Bilder und Videos in Ihre Prompts einfügen und erhalten Text‑ oder Codeantworten.
Folgen Sie der Anleitung in den entsprechenden Abschnitten des Notebooks, um diese Aufgabe zu bearbeiten.
Hinweis: Speichern Sie das Notebook-Script, bevor Sie bei der jeweiligen Aufgabe auf die Schaltfläche Fortschritt prüfen klicken.
Wenn Sie mehrere Bilder mit einem multimodalen Modell analysieren möchten, folgen Sie der Anleitung im Abschnitt Bildverständnis über mehrere Bilder hinweg.
Klicken Sie auf Fortschritt prüfen.
Bildverständnis über mehrere Bilder hinweg
Wenn Sie Bilder mit einem multimodalen Modell vergleichen möchten, folgen Sie der Anleitung im Abschnitt Gemeinsamkeiten/Unterschiede zwischen Bildern.
Klicken Sie auf Fortschritt prüfen.
Gemeinsamkeiten/Unterschiede zwischen Bildern
Wenn Sie eine Videobeschreibung mit einem multimodalen Modell erstellen möchten, folgen Sie der Anleitung im Abschnitt Videobeschreibung erstellen.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
Wenn Sie mit einem multimodalen Modell Tags von Objekten in einem Video extrahieren möchten, folgen Sie der Anleitung im Abschnitt Tags von Objekten in einem Video extrahieren.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
Wenn Sie das Video mit einem multimodalen Modell weiter untersuchen möchten, folgen Sie der Anleitung im Abschnitt Weitere Fragen zu einem Video stellen.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
Wenn Sie mit einem multimodalen Modell noch mehr Informationen aus Bildern erhalten möchten, folgen Sie der Anleitung im Abschnitt Weitere, über das Video hinausgehende Informationen abrufen.
Klicken Sie auf Fortschritt prüfen.
Videobeschreibung generieren und zusätzliche, über das Video hinausgehende Informationen abrufen
Aufgabe 2: Informationen mithilfe von multimodaler Retrieval-Augmented Generation (RAG) abrufen und integrieren
Folgen Sie der Anleitung in den entsprechenden Abschnitten des Notebooks, um diese Aufgabe zu bearbeiten.
Verfügbare Daten und Hilfsfunktionen für Aufgabe 2:
Das Dokument mit den Nutzungsbedingungen für Google-Dienste ist Grundlage der Beziehung zwischen Google und seinen Nutzern. Darin wird dargelegt, was Sie von Google erwarten können, welche Regeln für die Nutzung der Dienste gelten, welche Rechte an geistigem Eigentum in Bezug auf die Inhalte bestehen und wie Streitigkeiten oder Unstimmigkeiten beigelegt werden können. Dieses Beispieldokument enthält nur Text.
Eine modifizierte Version des von Google ausgefüllten 10‑K-Formulars, das einen umfassenden Überblick über die Geschäftsergebnisse, die Geschäftstätigkeit, das Management und die Risikofaktoren des Unternehmens enthält. Das Originaldokument ist relativ lang, daher kommt hier eine verkürzte Variante mit nur 14 Seiten zum Einsatz, die zweigeteilt ist: Teil 1 und Teil 2. Das Beispieldokument enthält jedoch trotzdem Text sowie Bilder in Form von Tabellen, Diagrammen und Grafiken.
Sie können auch die folgenden Hilfsfunktionen zum Durchführen der Aufgaben unten nutzen. Weitere Informationen zu diesen Funktionen finden Sie auf GitHub:
Für die Funktion „Verarbeitete Text-Metadaten prüfen“:
text: Originaltext von der Seite
text_embedding_page: Einbettung des Originaltextes der Seite
chunk_text: Originaltext in kleinere Abschnitte unterteilt
chunk_number: Index der einzelnen Textabschnitte
text_embedding_chunk: Einbettung der einzelnen Textabschnitte
Für die Funktion „Verarbeitete Bild-Metadaten prüfen“:
img_desc: mit Gemini erstellte Textbeschreibung des Bildes
mm_embedding_from_text_desc_and_img: kombinierte Einbettung von Bild und Beschreibung, wobei sowohl Bild- als auch Textinformationen erfasst werden
mm_embedding_from_img_only: Bildeinbettung ohne Beschreibung, zum Vergleich mit der beschreibungsbasierten Analyse
text_embedding_from_image_description: Separate Texteinbettung der erstellten Beschreibung, ermöglicht Textanalyse und Textvergleich
Für die Funktion „Import der Hilfsfunktionen zur Implementierung der RAG“:
get_similar_text_from_query(): Findet bei einer Textabfrage mithilfe des Kosinus-Ähnlichkeitsalgorithmus relevanten Text im Dokument. Zur Berechnung werden Texteinbettungen aus den Metadaten verwendet. Die Ergebnisse können nach der höchsten Punktzahl, der Anzahl der Seiten/Abschnitte oder der Größe der Einbettung gefiltert werden.
print_text_to_text_citation(): Gibt die Quelle aus (Zitat) und nennt Details des von der Funktion get_similar_text_from_query() abgerufenen Texts.
get_similar_image_from_query(): Findet anhand eines Bildpfades oder eines Bildes relevante Bilder aus dem Dokument. Verwendet Bildeinbettungen aus den Metadaten.
print_text_to_image_citation(): Gibt die Quelle aus (Zitat) und nennt Details der von der Funktion `get_similar_image_from_query()`` abgerufenen Bilder.
get_gemini_response(): Interagiert mit einem Gemini-Modell zur Beantwortung von Fragen auf der Grundlage einer Kombination aus Text- und Bildeingaben.
display_images(): Zeigt eine Reihe von Bildern an, die als Pfade oder PIL-Bildobjekte bereitgestellt werden.
Folgen Sie der Anleitung im Abschnitt Metadaten von Dokumenten erstellen, die Text und Bilder enthalten, um Hilfsfunktionen zu importieren und auszuführen.
Folgen Sie der Anleitung im Abschnitt Nutzerabfrage erstellen, um mit den bereitgestellten Variablen zu arbeiten.
Wenn Sie relevante Textabschnitte basierend auf der Abfrage abrufen möchten, folgen Sie der Anleitung im Abschnitt Alle relevanten Textabschnitte abrufen.
Folgen Sie der Anleitung unter Kontexttext erstellen, um die Textblöcke zu organisieren.
Wenn Sie den Kontext an Gemini weitergeben und eine Antwort generieren möchten, folgen Sie der Anleitung unter Kontext an Gemini weitergeben.
Klicken Sie auf Fortschritt prüfen.
Informationen mithilfe von multimodaler Retrieval-Augmented Generation (RAG) abrufen und integrieren
Glückwunsch!
Mit dem Abschluss dieses Challenge-Labs haben Sie bewiesen, dass Sie Gemini APIs einsetzen können, um Text zu generieren, Funktionsaufrufe zu erstellen und Videoinhalte zu beschreiben. Auf diese Weise haben Sie dafür gesorgt, dass diese Funktionen vor der Einführung in die Produktion den erwarteten Standards entsprachen. Gut gemacht!
Weitere Informationen
In den folgenden Ressourcen finden Sie weitere Informationen zu Gemini:
In unseren Schulungen erfahren Sie alles zum optimalen Einsatz unserer Google Cloud-Technologien und können sich entsprechend zertifizieren lassen. Unsere Kurse vermitteln technische Fähigkeiten und Best Practices, damit Sie möglichst schnell mit Google Cloud loslegen und Ihr Wissen fortlaufend erweitern können. Wir bieten On-Demand-, Präsenz- und virtuelle Schulungen für Anfänger wie Fortgeschrittene an, die Sie individuell in Ihrem eigenen Zeitplan absolvieren können. Mit unseren Zertifizierungen weisen Sie nach, dass Sie Experte im Bereich Google Cloud-Technologien sind.
Labs erstellen ein Google Cloud-Projekt und Ressourcen für einen bestimmten Zeitraum
Labs haben ein Zeitlimit und keine Pausenfunktion. Wenn Sie das Lab beenden, müssen Sie von vorne beginnen.
Klicken Sie links oben auf dem Bildschirm auf Lab starten, um zu beginnen
Privates Surfen verwenden
Kopieren Sie den bereitgestellten Nutzernamen und das Passwort für das Lab
Klicken Sie im privaten Modus auf Konsole öffnen
In der Konsole anmelden
Melden Sie sich mit Ihren Lab-Anmeldedaten an. Wenn Sie andere Anmeldedaten verwenden, kann dies zu Fehlern führen oder es fallen Kosten an.
Akzeptieren Sie die Nutzungsbedingungen und überspringen Sie die Seite zur Wiederherstellung der Ressourcen
Klicken Sie erst auf Lab beenden, wenn Sie das Lab abgeschlossen haben oder es neu starten möchten. Andernfalls werden Ihre bisherige Arbeit und das Projekt gelöscht.
Diese Inhalte sind derzeit nicht verfügbar
Bei Verfügbarkeit des Labs benachrichtigen wir Sie per E-Mail
Sehr gut!
Bei Verfügbarkeit kontaktieren wir Sie per E-Mail
Es ist immer nur ein Lab möglich
Bestätigen Sie, dass Sie alle vorhandenen Labs beenden und dieses Lab starten möchten
Privates Surfen für das Lab verwenden
Nutzen Sie den privaten oder Inkognitomodus, um dieses Lab durchzuführen. So wird verhindert, dass es zu Konflikten zwischen Ihrem persönlichen Konto und dem Teilnehmerkonto kommt und zusätzliche Gebühren für Ihr persönliches Konto erhoben werden.
In diesem Lab testen Sie Ihr Wissen zur Verwendung multimodaler Prompts bei der Extraktion von Informationen aus Text und visuellen Daten und zur Verwendung einer multimodalen Retrieval-Augmented Generation (RAG) mit Gemini, um den gesamten relevanten Text abzurufen und Zitate auszugeben.