GSP1142

Ringkasan
Document AI adalah solusi pemahaman dokumen yang memproses data tidak terstruktur (misalnya dokumen, email, invoice, formulir, dll.) dan membuat data tersebut lebih mudah dipahami, dianalisis, dan digunakan. API-nya memberikan struktur melalui klasifikasi konten, ekstraksi entity, penelusuran lanjutan, dan lainnya. Dengan Document AI Workbench, Anda dapat meningkatkan akurasi pemrosesan dokumen dengan membuat model yang disesuaikan sepenuhnya menggunakan data pelatihan sendiri.
Anda dapat membuat Pengekstrak Dokumen Kustom (CDE) yang disesuaikan khusus untuk dokumen Anda, serta dilatih dan dievaluasi dengan data Anda. Pemroses ini mengidentifikasi dan mengekstrak entity dari dokumen Anda. Selanjutnya, Anda dapat menggunakan pemroses terlatih ini pada dokumen lain. Biasanya, Anda akan menggunakan CDE pada dokumen yang semuanya berjenis sama, seperti formulir pendaftaran institusi Anda.
Di lab ini, Anda akan mempelajari cara menggunakan Document AI Workbench untuk membuat dan melatih Pengekstrak Dokumen Kustom yang memproses dokumen W-2 (formulir pajak Amerika Serikat). Sebagian besar pekerjaan persiapan dokumen telah dilakukan sebelumnya sehingga Anda cukup fokus pada mekanisme lain dalam pembuatan CDE.
Tujuan
Di lab ini, Anda akan mempelajari cara melakukan tugas berikut:
- Membuat Pengekstrak Dokumen Kustom di Document AI Workbench
- Menentukan dan membuat skema pemroses
- Mengimpor dokumen
- Menganotasi dokumen secara manual di Document AI Workbench
- Menggunakan AI generatif untuk memberi label dokumen secara otomatis
- Memulai tugas pelatihan untuk pemroses
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
-
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
-
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Mengaktifkan Cloud Shell
Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.
-
Klik Activate Cloud Shell
di bagian atas Konsol Google Cloud.
-
Klik jendela berikut:
- Lanjutkan melalui jendela informasi Cloud Shell.
- Beri otorisasi ke Cloud Shell untuk menggunakan kredensial Anda guna melakukan panggilan Google Cloud API.
Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke Project_ID, . Output berisi baris yang mendeklarasikan Project_ID untuk sesi ini:
Project Cloud Platform Anda dalam sesi ini disetel ke {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.
- (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
gcloud auth list
- Klik Authorize.
Output:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
Untuk menetapkan akun aktif, jalankan:
$ gcloud config set account `ACCOUNT`
- (Opsional) Anda dapat menampilkan daftar ID project dengan perintah ini:
gcloud config list project
Output:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Catatan: Untuk mendapatkan dokumentasi gcloud
yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.
Tugas 1. Mengaktifkan Document AI API
Sebelum dapat mulai menggunakan Document AI, Anda harus mengaktifkan API.
- Di Cloud Shell, jalankan perintah berikut untuk mengaktifkan API untuk Document AI.
gcloud services enable documentai.googleapis.com
Anda akan melihat yang seperti ini:
Operation "operations/..." finished successfully.
- Jalankan perintah berikut untuk menginstal library klien Python untuk Document AI.
pip3 install --upgrade google-cloud-documentai
Anda akan melihat yang seperti ini:
...
Installing collected packages: google-cloud-documentai
Successfully installed google-cloud-documentai-2.15.0
Sekarang, Anda siap untuk menggunakan Document AI API.
Mengaktifkan Document AI API
Tugas 2. Membuat pemroses
Anda harus membuat pemroses Pengekstrak Dokumen Kustom terlebih dahulu untuk digunakan di lab ini.
Pertama-tama, Anda harus membuat instance pemroses Form Parser untuk digunakan di Document AI Platform untuk tutorial ini.
- Dari Navigation Menu, pilih View All Products. Di bagian Artificial Intelligence, pilih Document AI.

-
Klik Create Custom Processor.
-
Di dalam kotak Custom Extractor, klik Create Processor.
-
Beri nama lab-custom-extractor
dan pilih region US (United States) dari daftar.
-
Klik Create untuk membuat pemroses.
Klik Periksa progres saya untuk memverifikasi tujuan.
Membuat Pemroses
Tugas 3. Menentukan kolom pemroses
Anda sekarang berada di halaman Processor overview dari pemroses yang baru saja Anda buat.

Anda dapat menentukan kolom yang ingin diekstrak oleh pemroses dan mulai melabeli dokumen.
-
Klik tab Get started. Menu Fields akan muncul.
-
Klik Create New Field.
-
Masukkan nama untuk kolom tersebut. Pilih Data type dan Occurrence. Klik Create. Baca dokumentasi tentang cara Menentukan skema pemroses untuk petunjuk mendetail tentang cara membuat dan mengedit skema.
-
Buat semua label berikut untuk skema pemroses.
Nama |
Data Type |
Occurrence |
control_number |
Number |
Optional multiple |
employees_social_security_number |
Number |
Required multiple |
employer_identification_number |
Number |
Required multiple |
employers_name_address_and_zip_code |
Address |
Required multiple |
federal_income_tax_withheld |
Money |
Required multiple |
social_security_tax_withheld |
Money |
Required multiple |
social_security_wages |
Money |
Required multiple |
wages_tips_other_compensation |
Money |
Required multiple |
Anda juga dapat membuat dan menggunakan jenis label lainnya dalam skema pemroses Anda, seperti kotak centang dan entity tabular. Misalnya, formulir W-2 berisi kotak centang Statutory employee, Retirement plan, dan Third party sick pay yang dapat Anda tambahkan juga ke skema.

Klik Periksa progres saya untuk memverifikasi tujuan.
Membuat Label
Tugas 4. Mengupload dokumen contoh
Selanjutnya, Anda mengupload contoh PDF W-2 dan melabelinya.
-
Klik Upload Sample Document.
-
Pada sidebar, klik Import documents from Google Cloud Storage.
-
Untuk contoh ini, masukkan nama bucket ini pada Source path. Link ini mengarah langsung ke satu dokumen.
cloud-samples-data/documentai/Custom/W2/PDF/W2_XL_input_clean_2950.pdf
- Klik Import.
Anda akan dialihkan ke konsol pelabelan.
Tugas 5. Memberi label dokumen
Proses memilih teks dalam dokumen dan menerapkan label disebut sebagai anotasi.
- Saat Anda berada di konsol pelabelan, perhatikan bahwa banyak label yang sudah terisi.

Catatan: Hasil Anda mungkin terlihat sedikit berbeda dari gambar contoh.
-
Untuk menggunakan label yang disarankan, geser kursor ke atas setiap label di panel samping, lalu klik tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Anda dapat mengedit nilai jika tidak cocok dengan teks dokumen.
-
Dalam contoh ini, nilai di bagian bawah dokumen tidak diidentifikasi secara otomatis, jadi Anda harus memberinya label secara manual.
-
Gunakan alat Kotak pembatas secara default, atau alat Pilih teks untuk nilai multi-baris, untuk memilih konten dan menerapkan label.
Catatan: Alat Pilih teks tidak selalu bisa dipakai untuk semua nilai teks, jadi gunakan Kotak pembatas jika diperlukan. Anda juga dapat memilih kolom non-teks seperti kotak centang menggunakan alat Kotak pembatas.
- Dalam contoh ini, nilai
wages_tips_other_compensation
dipilih dengan alat Kotak pembatas, dan label tersebut diterapkan.

- Tinjau nilai teks yang terdeteksi untuk memastikan bahwa nilai tersebut mencerminkan teks yang benar dari dokumen.
Dokumen W-2 yang sudah diberi label akan terlihat seperti ini setelah selesai:

-
Jika diperlukan, Anda dapat mengklik Create New Field untuk menambahkan kolom baru ke skema dari halaman ini.
-
Klik Mark as Labeled setelah Anda selesai membuat anotasi pada dokumen.
Anda akan dialihkan ke tab Get started.
Tugas 6. Membangun versi pemroses menggunakan model dasar
Setelah melabeli satu dokumen, Anda dapat membuat versi pemroses menggunakan model dasar terlatih untuk mengekstrak entity.
- Klik tab Build.

-
Di bagian Call foundation model, klik Create New Version.
-
Masukkan nama untuk versi pemroses Anda, misalnya w2-foundation-model
.
-
Klik Create. Proses pembuatannya memerlukan waktu beberapa menit.
Catatan: Setelah membuat versi pemroses, Anda tidak dapat menghapus kolom yang telah dibuat. Anda dapat menonaktifkannya di halaman fields jika tidak lagi memerlukannya.
- Opsional: Klik tab Deploy & Use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status deployment versi yang baru.
Anda akan menguji dan mengevaluasi versi ini nanti di lab.
Klik Periksa progres saya untuk memverifikasi tujuan.
Membangun versi pemroses menggunakan model dasar
Tugas 7. Menggunakan AI generatif untuk memberi label dokumen secara otomatis
Model dasar dapat mengekstrak kolom secara akurat untuk berbagai jenis dokumen, tetapi Anda juga dapat menyediakan data pelatihan tambahan untuk meningkatkan akurasi model untuk struktur dokumen tertentu.
Document AI Workbench menggunakan nama label yang Anda tentukan dan anotasi sebelumnya untuk mempercepat dan mempermudah pelabelan dokumen dalam skala besar dengan pelabelan otomatis.
-
Buka halaman Build.
-
Klik Import Documents.
-
Pada sidebar, klik Import documents from Google Cloud Storage.
-
Masukkan nama bucket ini pada Source path. Bucket ini berisi file PDF W-2 tanpa label.
cloud-samples-data/documentai/Custom/W2/AutoLabel
-
Dari daftar Data split, pilih Auto-split. Dokumen akan secara otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian.
-
Di bagian Auto-labeling, pilih kotak centang Import with auto-labeling.
-
Pilih versi pemroses model dasar yang baru saja Anda buat untuk melabeli dokumen.
-
Klik Import dan tunggu hingga dokumen selesai diimpor. Anda dapat meninggalkan halaman ini dan membukanya kembali nanti.
-
Anda harus memverifikasi dokumen berlabel otomatis sebelum dapat menggunakannya untuk pelatihan atau pengujian. Klik Start Labeling untuk melihat dokumen berlabel otomatis.
-
Untuk menggunakan label yang disarankan, geser kursor ke atas anotasi, lalu klik tanda centang untuk mengonfirmasi bahwa label tersebut sudah benar. Anda dapat mengedit nilai jika tidak cocok dengan teks dokumen.
-
Klik Mark as Labeled setelah Anda selesai membuat anotasi pada dokumen.
-
Ulangi untuk setiap dokumen yang diberi label otomatis. Untuk tutorial ini, abaikan dokumen yang tidak berhasil diberi label otomatis.
Tugas 8. Mengimpor dokumen pelatihan yang telah diberi label
Di lab ini, Anda akan disediakan data yang telah diberi label. Jika yang dikerjakan adalah project Anda sendiri, Anda harus menentukan cara memberi label pada data Anda. Lihat Opsi pelabelan untuk mengetahui detail selengkapnya. Secara umum, makin banyak data pelatihan yang ada, makin tinggi akurasi yang dihasilkan.
-
Buka halaman Build.
-
Klik Import Documents.
-
Pada sidebar, klik Import documents from Google Cloud Storage.
-
Masukkan jalur berikut di Source path. Bucket ini berisi dokumen yang telah diberi label sebelumnya dalam format Document JSON.
cloud-samples-data/documentai/Custom/W2/JSON-2
-
Dari daftar Data split, pilih Auto-split. Dokumen akan secara otomatis terbagi menjadi 80%-nya dalam set pelatihan dan 20%-nya dalam set pengujian. Biarkan Import with auto-labeling tidak dicentang.
-
Klik Import. Proses impor memerlukan waktu beberapa menit.
-
(Opsional) Dari halaman Build, Anda dapat mengakses konsol Manage Dataset untuk melihat dan mengedit semua dokumen dan label dalam set data.
Tugas 9. Melatih pemroses
Setelah memiliki data pelatihan dan pengujian yang memadai, Anda dapat melatih pemroses. Karena pelatihan mungkin memerlukan waktu beberapa jam, pastikan Anda telah menyiapkan pemroses dengan data dan label yang sesuai sebelum memulai pelatihan.
-
Di bagian Train a custom model, klik Create New Version.
Jika Create New Version tidak dapat diklik, klik View Full Requirements untuk informasi tentang persyaratan set data.
-
Di kolom Version name, masukkan nama untuk versi pemroses ini, misalnya w2-custom-model
.
-
(Opsional) Klik View Label Stats untuk menemukan informasi tentang label dokumen. Hal ini dapat membantu menentukan cakupan Anda. Klik Close untuk kembali ke penyiapan pelatihan.
-
Di bagian Model training method, pilih Model based.
-
Klik Start training.
-
(Opsional) Klik tab Deploy & Use. Di halaman ini, Anda dapat melihat versi pemroses yang tersedia dan status pelatihan versi yang baru.

Klik Periksa progres saya untuk memverifikasi tujuan.
Melatih model
Bagus! Anda sekarang telah mulai melatih Pemroses Document AI Kustom pertama Anda. Karena tugas pelatihan akan memakan waktu beberapa jam, lab ini akan diakhiri di sini. Jika ingin mempelajari cara men-deploy dan menguji versi model, Anda dapat membaca bagian berikutnya dalam dokumentasi.
Selamat!
Selamat, di lab ini Anda telah berhasil menggunakan Document AI untuk membuat pemroses Pengekstrak Dokumen Kustom, mengimpor set data, dan memberi label pada dokumen contoh. Sekarang Anda dapat menggunakan pemroses ini untuk mengurai dokumen dalam format ini sebagaimana halnya dengan Pemroses Khusus lain. Anda juga dapat menggunakan pemroses ini untuk memberi label pada dokumen baru menggunakan pelabelan otomatis serta menggunakan Document AI Workbench untuk mengelola data pelatihan dan tugas pelatihan Anda.
Langkah berikutnya/Pelajari lebih lanjut
Lihat referensi berikut untuk mempelajari Document AI dan Library Klien Python lebih lanjut:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 17 Maret 2025
Lab Terakhir Diuji pada 17 Maret 2025
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.