GSP327

Ringkasan
Dalam challenge lab, Anda diberi sebuah skenario dan serangkaian tugas. Tidak ada petunjuk langkah demi langkah. Anda akan menggunakan keahlian yang dipelajari dari lab dalam kursus untuk mencari cara menyelesaikan sendiri tugas-tugas tersebut. Sistem pemberian skor otomatis (ditampilkan pada halaman ini) akan memberikan masukan tentang apakah Anda telah menyelesaikan tugas dengan benar atau tidak.
Saat mengikuti challenge lab, Anda tidak akan diajari konsep-konsep baru Google Cloud. Anda diharapkan dapat memperluas keahlian yang dipelajari, seperti mengubah nilai default dan membaca serta mengkaji pesan error untuk memperbaiki kesalahan Anda sendiri.
Untuk meraih skor 100%, Anda harus berhasil menyelesaikan semua tugas dalam jangka waktu tertentu.
Lab ini direkomendasikan bagi siswa yang sudah mengikuti badge keahlian Rekayasa Data untuk Pembuatan Model Prediktif dengan BigQuery ML. Apakah Anda siap menghadapi tantangan ini?
Penyiapan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Skenario tantangan
Anda punya jabatan baru sebagai Data Engineer untuk TaxiCab Inc. Anda diminta mengimpor beberapa data historis ke set data BigQuery yang berfungsi, dan membuat model dasar yang memprediksi tarif berdasarkan informasi yang tersedia saat perjalanan baru dimulai. Pimpinan Anda tertarik untuk membuat aplikasi yang memperkirakan ongkos perjalanan bagi pengguna. Data sumber akan diberikan dalam project Anda.
Anda dianggap sudah memiliki kemampuan dan pengetahuan untuk menyelesaikan tugas ini, jadi panduan langkah demi langkah tidak akan disediakan.
Tantangan Anda
Begitu Anda duduk di meja kerja dan membuka laptop, Anda menerima tugas pertama, yaitu membuat model prediksi tarif dasar BQML untuk pimpinan. Lakukan tugas berikut untuk mengimpor dan membersihkan data, lalu buat model dan jalankan prediksi batch dengan data baru, sehingga pimpinan dapat meninjau performa model dan memutuskan apakah akan men-deploy fungsi aplikasi atau tidak.
Tugas 1. Membersihkan data pelatihan
Anda sudah menyelesaikan langkah pertama, serta membuat set data taxirides
dan mengimpor data historis ke tabel, historical_taxi_rides_raw
. Ini adalah data perjalanan hingga tahun 2015.
Catatan: Anda mungkin perlu menunggu 1-3 menit agar data dapat sepenuhnya diisi dalam project Anda.
Untuk menyelesaikan tugas ini, Anda perlu:
- Membersihkan data di
historical_taxi_rides_raw
dan membuat salinan ke di set data yang sama. Anda dapat menggunakan BigQuery, Dataprep, Dataflow, dan lain-lain untuk membuat tabel ini dan membersihkan data. Pastikan kolom target Anda bernama .
Petunjuk yang dapat membantu:
- Anda dapat melihat set data sumber di UI BQ - pahami skema sumber terlebih dahulu.
- Sebagai petunjuk untuk data yang tersedia pada waktu prediksi, pahami tabel
taxirides.report_prediction_data
yang menunjukkan format data yang akan datang pada waktu prediksi.
Tugas pembersihan data:
- Pastikan
trip_distance
lebih besar dari .
- Hapus baris dengan nilai
fare_amount
yang sangat sedikit (misalnya, yang bernilai kurang dari $
).
- Pastikan garis lintang dan garis bujur masuk akal untuk kasus penggunaan.
- Pastikan
passenger_count
lebih besar dari .
- Pastikan untuk menambahkan
tolls_amount
dan fare_amount
ke sebagai variabel target karena total_amount mencakup tip.
- Karena set data sumber berjumlah besar (>1 Miliar baris), buat sampel set data yang berjumlah kurang dari 1 Juta baris.
- Hanya salin kolom yang akan digunakan di model Anda (
report_prediction_data
adalah panduan yang bagus).
Klik Check my progress untuk memverifikasi tujuan. Membuat salinan data yang telah dibersihkan di
Tugas 2. Membuat model BigQuery ML
-
Berdasarkan data yang Anda miliki di , buat model BigQuery ML yang memprediksi .
-
Panggil model .
Catatan: Model Anda akan memerlukan RMSE berjumlah 10 atau kurang untuk menyelesaikan tugas.
Petunjuk yang dapat membantu:
- Anda dapat mengenkapsulasi transformasi data lainnya di klausa TRANSFORM()
- Harap diperhatikan, fitur yang akan diteruskan ke model hanyalah fitur di klausa
TRANSFORM()
. Anda dapat menggunakan * EXCEPT(feature_to_leave_out)
untuk meneruskan sebagian atau semua fitur tanpa memanggilnya secara eksplisit
- Fungsi GIS
ST_distance()
dan ST_GeogPoint()
di BigQuery dapat digunakan untuk menghitung jarak euclidean dengan mudah (yakni jarak yang ditempuh taksi dari menjemput hingga menurunkan penumpang):
ST_Distance(ST_GeogPoint(pickuplon, pickuplat), ST_GeogPoint(dropofflon, dropofflat)) AS euclidean
Klik Check my progress untuk memverifikasi tujuan. Membuat model BigQuery ML dengan RMSE berjumlah 10 atau kurang
Tugas 3. Melakukan prediksi batch pada data baru
Pimpinan Anda ingin tahu seberapa baik performa model dalam mengolah data baru, yakni semua data yang telah dikumpulkan pada tahun 2015. Data ini berada di taxirides.report_prediction_data
. Nilai yang disertakan dalam tabel hanyalah nilai yang diketahui pada waktu prediksi.
- Gunakan
ML.PREDICT
dan model Anda untuk memprediksi , lalu simpan hasilnya di tabel bernama 2015_fare_amount_predictions
.
Klik Check my progress untuk memverifikasi tujuan. Melakukan prediksi batch dan menyimpan hasil di tabel baru 2015_fare_amount_predictions
Selamat!

Mendapatkan badge keahlian Anda berikutnya
Lab mandiri ini merupakan bagian dari badge keahlian Rekayasa Data untuk Pembuatan Model Prediktif dengan BigQuery ML. Dengan menyelesaikan badge keahlian ini, Anda akan mendapatkan badge di atas sebagai pengakuan atas pencapaian Anda. Tampilkan badge di resume atau platform media sosial Anda, dan umumkan pencapaian Anda menggunakan hashtag #GoogleCloudBadge.
Badge keahlian ini merupakan bagian dari jalur pembelajaran Data Engineer Google Cloud. Jika Anda sudah menyelesaikan badge keahlian lain di jalur pembelajaran ini, telusuri katalog untuk badge keahlian lainnya yang dapat Anda ikuti.
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 25 Maret 2024
Lab Terakhir Diuji pada 11 September 2023
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.