GSP520

Ringkasan
Dalam challenge lab, Anda diberi sebuah skenario dan serangkaian tugas. Tidak ada petunjuk langkah demi langkah. Anda akan menggunakan keahlian yang dipelajari dari lab dalam kursus untuk mencari cara menyelesaikan sendiri tugas-tugas tersebut. Sistem pemberian skor otomatis (ditampilkan pada halaman ini) akan memberikan masukan tentang apakah Anda telah menyelesaikan tugas dengan benar atau tidak.
Saat mengikuti challenge lab, Anda tidak akan diajari konsep-konsep baru Google Cloud. Anda diharapkan dapat memperluas keahlian yang dipelajari, seperti mengubah nilai default dan membaca serta mengkaji pesan error untuk memperbaiki kesalahan Anda sendiri.
Untuk meraih skor 100%, Anda harus berhasil menyelesaikan semua tugas dalam jangka waktu tertentu.
Lab ini direkomendasikan bagi siswa yang sudah mengikuti kursus untuk badge keahlian Menginspeksi Dokumen Multimedia dengan Multimodalitas Gemini dan RAG Multimodal. Apakah Anda siap menghadapi tantangan ini?
Topik yang diujikan
- Menggunakan perintah multimodal untuk memperoleh informasi dari data teks dan visual, membuat deskripsi video, dan mengambil informasi tambahan di luar video menggunakan multimodalitas dengan Gemini
- Membangun metadata dokumen yang berisi teks dan gambar, mendapatkan semua potongan teks yang relevan, dan mencetak kutipan menggunakan Retrieval Augmented Generation (RAG) Multimodal dengan Gemini
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Membuka notebook di Vertex AI Workbench
-
Di Konsol Google Cloud, pada Navigation menu (
), klik Vertex AI > Workbench.
-
Cari instance lalu klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Catatan: Jika Anda tidak melihat notebook di JupyterLab, ikuti langkah tambahan berikut untuk mereset instance:
1. Tutup tab browser untuk JupyterLab, lalu kembali ke halaman beranda Workbench.
2. Pilih kotak centang di samping nama instance, lalu klik Reset.
3. Setelah tombol Open JupyterLab diaktifkan kembali, tunggu satu menit, lalu klik Open JupyterLab.
Menyiapkan notebook
-
Klik file .
-
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
-
Jalankan ke-4 sel di bagian Setup and requirements pada notebook (sebelum membuka Tugas 1).
-
Gunakan informasi berikut untuk melakukan inisialisasi Gen AI SDK for Python pada project Anda:
- Untuk Project ID, masukkan
- Untuk Location, masukkan
Skenario tantangan
Anda adalah seorang Koordinator Kampanye Pemasaran di perusahaan media, yang bekerja sama dengan Manajer Pemasaran untuk merencanakan, menjalankan, dan mengevaluasi kampanye guna memenuhi target penjualan. Baru-baru ini, Anda mendapatkan kontrak baru yang menarik dengan Google. Sebagai Koordinator Kampanye Pemasaran, Anda ingin mendalami materi yang akan membantu Anda memahami brand Google dan identitas brand Google sesegera mungkin. Dengan demikian, Anda berencana untuk meninjau pedoman branding Google, kampanye sebelumnya, iklan produk, testimoni pelanggan, dan laporan keuangan dengan memanfaatkan kemampuan inovatif Gemini guna mendapatkan insight yang lebih mendalam tentang Google secara lebih efisien.
Dalam tantangan ini, Anda memulai dengan perintah multimodal untuk memperoleh informasi dari data teks dan visual, yang menghasilkan deskripsi video, dan mengambil informasi tambahan di luar video menggunakan multimodalitas dengan Gemini. Anda juga membangun metadata dokumen yang berisi teks dan gambar, yang mendapatkan semua potongan teks yang relevan, dan mencetak kutipan menggunakan Retrieval Augmented Generation (RAG) Multimodal dengan Gemini.
Tugas 1. Membuat insight multimodal dengan Gemini
Dalam tugas ini, Anda akan mempelajari brand Google dan identitas brand Google menggunakan Gemini, yaitu model multimodal yang mendukung perintah multimodal. Anda akan menyertakan teks, gambar, dan video dalam permintaan perintah Anda dan mendapatkan respons teks atau kode.
Untuk menyelesaikan tugas ini, ikuti petunjuk di bagian tertentu dalam notebook.
Catatan: Simpan skrip notebook sebelum mengklik tombol Periksa progres saya untuk tiap tugas.
- Untuk mempelajari beberapa gambar menggunakan model multimodal, ikuti petunjuk di bagian Pemahaman gambar di beberapa gambar.
Untuk memverifikasi tujuan, klik Periksa progres saya.
Pemahaman gambar di beberapa gambar.
- Untuk membandingkan gambar menggunakan model multimodal, ikuti petunjuk di bagian Kesamaan/Perbedaan antargambar.
Untuk memverifikasi tujuan, klik Periksa progres saya.
Kesamaan/Perbedaan antargambar.
-
Untuk membuat deskripsi video menggunakan model multimodal, ikuti petunjuk di bagian Membuat deskripsi video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Untuk mengekstrak tag objek di seluruh video menggunakan model multimodal, ikuti petunjuk di bagian Mengekstrak tag objek di seluruh video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4), to complete this step.
-
Untuk mempelajari video lebih lanjut menggunakan model multimodal, ikuti petunjuk di bagian Mengajukan lebih banyak pertanyaan terkait video.
Use [https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4](https://storage.googleapis.com/spls/gsp520/google-pixel-8-pro.mp4) to complete this step.
-
Untuk mendapatkan lebih banyak informasi dari gambar menggunakan model multimodal, ikuti petunjuk di bagian Mengambil informasi tambahan di luar video.
Untuk memverifikasi tujuan, klik Periksa progres saya.
Membuat deskripsi video dan mengambil informasi tambahan di luar video.
Tugas 2. Mengambil dan mengintegrasikan pengetahuan dengan retrieval-augmented generation (RAG) multimodal
Untuk menyelesaikan tugas ini, ikuti petunjuk di bagian tertentu dalam notebook.
Fungsi bantuan dan data yang tersedia untuk Tugas 2:
-
Dokumen Persyaratan Layanan untuk layanan Google, yang menentukan hubungan antara Google dan penggunanya. Dokumen ini membahas hal-hal yang akan didapatkan pengguna dari Google, aturan terkait cara menggunakan layanan, hak atas kekayaan intelektual yang berkaitan dengan konten, dan prosedur terkait penyelesaian sengketa atau perbedaan pendapat. Dokumen sampel ini berisi teks saja.
-
Google-10K versi modifikasi yang memberikan ringkasan komprehensif terkait performa finansial, operasi bisnis, pengelolaan, dan faktor risiko perusahaan. Karena dokumen aslinya berukuran cukup besar, Anda akan menggunakan versi modifikasi yang hanya berisi 14 halaman serta terbagi menjadi dua bagian, yaitu Bagian 1 dan Bagian 2. Meskipun lebih pendek, dokumen sampel ini masih berisi teks beserta gambar seperti tabel, diagram, dan grafik.
Anda juga dapat memilih dari fungsi bantuan berikut untuk menyelesaikan tugas di bawah. (Untuk mengetahui informasi selengkapnya tentang fungsi ini, lihat GitHub).
-
Untuk fungsi periksa metadata teks yang diproses:
-
text: Teks asli dari halaman.
-
text_embedding_page: Embedding teks asli dari halaman.
-
chunk_text: Teks asli yang dibagi menjadi potongan-potongan yang lebih kecil.
-
chunk_number: Indeks tiap potongan teks.
-
text_embedding_chunk: Embedding tiap potongan teks.
-
Untuk fungsi periksa metadata gambar yang diproses:
-
img_desc: Deskripsi tekstual buatan Gemini terkait gambar.
-
mm_embedding_from_text_desc_and_img: Embedding gabungan gambar dan deskripsinya, yang mencakup informasi visual dan tekstual.
-
mm_embedding_from_img_only: Embedding gambar tanpa deskripsi, sebagai perbandingan dengan analisis berbasis deskripsi.
-
text_embedding_from_image_description: Embedding teks terpisah dari deskripsi yang dibuat, yang memungkinkan analisis dan perbandingan tekstual.
-
Untuk fungsi impor fungsi bantuan guna menerapkan RAG:
-
get_similar_text_from_query(): Berdasarkan kueri teks, menemukan teks dari dokumen yang relevan menggunakan algoritma kesamaan kosinus. Fungsi ini menggunakan embedding teks dari metadata untuk melakukan penghitungan. Hasilnya dapat difilter berdasarkan skor teratas, nomor halaman/potongan, atau ukuran embedding.
-
print_text_to_text_citation(): Mencetak sumber (kutipan) dan detail-detail teks yang diambil dari fungsi
get_similar_text_from_query()
.
-
get_similar_image_from_query(): Berdasarkan jalur gambar atau gambar tertentu, menemukan gambar dari dokumen yang relevan. Fungsi ini menggunakan embedding gambar dari metadata.
-
print_text_to_image_citation(): Mencetak (kutipan) sumber dan detail-detail gambar yang diambil dari fungsi `get_similar_image_from_query()``.
-
get_gemini_response(): Berinteraksi dengan model Gemini untuk menjawab pertanyaan berdasarkan kombinasi input teks dan gambar.
-
display_images(): Menampilkan serangkaian gambar yang disertakan sebagai jalur atau objek Gambar PIL.
-
Untuk mengimpor dan menjalankan fungsi bantuan, ikuti petunjuk di bagian Membuat metadata dokumen yang berisi teks dan gambar.
-
Untuk menggunakan variabel yang disediakan, ikuti petunjuk di bagian Membuat kueri pengguna.
-
Untuk mengambil potongan teks yang relevan berdasarkan kueri, ikuti petunjuk di bagian Mendapatkan semua potongan teks yang relevan.
-
Untuk mengatur potongan teks, ikuti petunjuk dalam artikel Membuat context_text.
-
Untuk meneruskan konteks ke Gemini dan membuat respons, ikuti petunjuk untuk Meneruskan konteks ke Gemini.
Untuk memverifikasi tujuan, klik Periksa progres saya.
Mengambil dan mengintegrasikan pengetahuan dengan retrieval augmented generation (RAG) multimodal.
Selamat!
Dengan menyelesaikan Challenge Lab ini, Anda telah menunjukkan bahwa Anda dapat memanfaatkan Gemini API untuk menghasilkan teks, membuat panggilan fungsi, dan menjelaskan konten video. Tugas Anda berhasil memastikan bahwa fitur-fitur ini memenuhi standar yang diharapkan sebelum di-deploy ke produksi. Selamat!

Langkah berikutnya/pelajari lebih lanjut
Baca referensi berikut untuk mempelajari Gemini lebih lanjut:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 11 Juli 2025
Lab Terakhir Diuji pada 11 Juli 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.