GSP1279

Ringkasan
Lab ini memandu Anda membangun sistem question answering multimodal dari awal menggunakan Vertex AI Google dan rangkaian model Gemini yang canggih. Anda akan mendapatkan pemahaman mendalam tentang cara kerja sistem tersebut dengan membangunnya sendiri, tanpa bergantung pada alat atau library yang sudah dibuat sebelumnya. Pengalaman praktis ini akan menjelaskan prosesnya dan membekali Anda dengan pengetahuan untuk menyesuaikan dan mengoptimalkan sistem question answering Anda sendiri di masa mendatang. Anda juga akan mempelajari keunggulan Retrieval Augmented Generation (RAG) multimodal dibandingkan RAG berbasis teks tradisional, serta menemukan bagaimana penggabungan informasi visual meningkatkan akses pengetahuan dan kemampuan penalaran.
Prasyarat
Sebelum memulai lab ini, Anda sebaiknya sudah mengetahui:
- Pemrograman Python dasar.
- Konsep API secara umum.
- Cara menjalankan kode Python di notebook Jupyter di Vertex AI Workbench.
Tujuan
Di lab ini, Anda akan mempelajari cara membangun mesin telusur dokumen menggunakan retrieval augmented generation (RAG) multimodal:
- Mengekstrak dan menyimpan metadata dokumen yang berisi teks dan gambar, serta membuat embedding dokumen.
- Menelusuri metadata dengan kueri teks untuk menemukan teks atau gambar yang serupa.
- Menelusuri metadata dengan kueri gambar untuk menemukan gambar yang serupa.
- Menelusuri jawaban kontekstual dengan teks dan gambar menggunakan kueri teks sebagai input.
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
-
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
-
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Tugas 1. Membuka notebook di Vertex AI Workbench
-
Di Konsol Google Cloud, pada Navigation menu (
), klik Vertex AI > Workbench.
-
Cari instance lalu klik tombol Open JupyterLab.
Antarmuka JupyterLab untuk instance Workbench Anda akan terbuka di tab browser baru.
Catatan: Jika Anda tidak melihat notebook di JupyterLab, ikuti langkah tambahan berikut untuk mereset instance:
1. Tutup tab browser untuk JupyterLab, lalu kembali ke halaman beranda Workbench.
2. Pilih kotak centang di samping nama instance, lalu klik Reset.
3. Setelah tombol Open JupyterLab diaktifkan kembali, tunggu satu menit, lalu klik Open JupyterLab.
Tugas 2. Menyiapkan notebook
-
Buka file .
-
Pada dialog Select Kernel, pilih Python 3 dari daftar kernel yang tersedia.
-
Jalankan bagian Getting Started dan Import libraries pada notebook.
- Untuk Project ID, gunakan , sedangkan untuk Location, gunakan .
Catatan: Anda dapat melewatkan sel notebook yang bertanda Colab only. Jika Anda mendapatkan respons 429 dari salah satu eksekusi sel notebook, tunggu 1 menit sebelum menjalankan sel kembali untuk melanjutkan.
Klik Check my progress untuk memverifikasi tujuan.
Mengimpor library dan menyiapkan notebook
Tugas 3. Membangun metadata dokumen yang berisi teks dan gambar
Di bagian ini, Anda akan mengimpor fungsi bantuan untuk membuat metadata, memuat metadata teks dan gambar yang telah dikomputasi sebelumnya dari dokumen sumber, serta memeriksa data teks dan gambar yang telah diproses.
- Jalankan bagian Building metadata of documents containing text and images pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Mengimpor fungsi bantuan untuk membangun metadata
Memuat metadata teks dan gambar yang telah dikomputasi sebelumnya
Memeriksa data teks dan gambar yang telah diproses
Tugas 4. Penelusuran teks
Di bagian ini, Anda akan menggunakan model Gemini untuk melakukan penelusuran dengan pertanyaan sederhana dan melihat apakah penelusuran teks sederhana yang menggunakan embedding teks dapat menjawab pertanyaan tersebut. Anda juga akan menggunakan kemampuan multimodal model Gemini untuk menelusuri gambar yang mirip dengan kueri teks.
- Jalankan bagian Text search pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Penelusuran teks
Tugas 5. Penelusuran gambar
Bayangkan Anda mencari gambar, tetapi alih-alih mengetik kata-kata, Anda menggunakan gambar sebenarnya sebagai petunjuk. Anggap saja seperti menelusuri dengan peta mini, bukan alamat tertulis. Ini adalah cara lain untuk meminta, "Tampilkan lebih banyak konten seperti ini". Jadi, alih-alih mengetikkan "berbagai contoh konteks panjang Gemini 2.0", Anda menunjukkan gambar tersebut dan berkata, "Temukan gambar yang mirip dengan ini"
Di bagian ini, Anda hanya akan menemukan gambar serupa yang menunjukkan berbagai fitur Gemini dalam satu dokumen. Namun, Anda dapat menskalakan pola desain ini untuk mencocokkan (menemukan gambar yang relevan) di beberapa dokumen.
- Jalankan bagian Image search pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Penelusuran gambar
Tugas 6. Membangun Sistem QA Multimodal dengan retrieval augmented generation (mRAG)
Dalam tugas terakhir ini, Anda akan menggabungkan semuanya untuk mengimplementasikan RAG multimodal. Untuk mengimplementasikan RAG multimodal, pengguna memberikan kueri teks yang terkait dengan informasi yang ada dalam teks dan gambar di dalam dokumen. Potongan teks yang mirip dengan kueri diambil dari halaman dokumen menggunakan metode penelusuran teks. Pada saat yang sama, penelusuran gambar mengidentifikasi gambar dengan deskripsi yang cocok dengan kueri.
Teks dan gambar relevan yang digabungkan berfungsi sebagai konteks bagi Gemini, yang menghasilkan jawaban atas kueri, yang mungkin merujuk pada petunjuk tertentu. Terakhir, kutipan menunjukkan teks dan gambar yang digunakan untuk merumuskan respons.
- Jalankan bagian Building Multimodal QA System with retrieval augmented generation (mRAG) pada notebook.
Klik Check my progress untuk memverifikasi tujuan.
Membangun Sistem QA Multimodal dengan retrieval augmented generation (mRAG)
Selamat!
Selamat! Di lab ini, Anda telah mempelajari cara membangun sistem question answering multimodal menggunakan Gemini API di Vertex AI. Anda telah membangun mesin telusur dokumen yang dapat menelusuri teks dan gambar menggunakan kueri teks dan gambar. Anda juga telah membangun sistem question answering multimodal yang dapat menjawab pertanyaan menggunakan teks dan gambar.
Langkah berikutnya/pelajari lebih lanjut
Baca referensi berikut untuk mempelajari Gemini lebih lanjut:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 11 Juli 2025
Lab Terakhir Diuji pada 11 Juli 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.