GSP196

Ringkasan
Di lab ini, Anda akan mengimpor data dari file teks CSV ke Cloud SQL, lalu melakukan analisis data tingkat dasar menggunakan kueri sederhana.
Set data yang digunakan di lab ini berasal dari US Bureau of Transport Statistics dan berisi informasi historis tentang penerbangan domestik di Amerika Serikat. Set data ini dapat digunakan untuk mendemonstrasikan berbagai konsep dan teknik data science.
Tujuan
- Membuat instance Cloud SQL
- Membuat database Cloud SQL
- Mengimpor data teks ke Cloud SQL
- Membangun model data awal menggunakan kueri
Penyiapan dan persyaratan
Sebelum mengklik tombol Start Lab
Baca petunjuk ini. Lab memiliki timer dan Anda tidak dapat menjedanya. Timer yang dimulai saat Anda mengklik Start Lab akan menampilkan durasi ketersediaan resource Google Cloud untuk Anda.
Lab interaktif ini dapat Anda gunakan untuk melakukan aktivitas lab di lingkungan cloud sungguhan, bukan di lingkungan demo atau simulasi. Untuk mengakses lab ini, Anda akan diberi kredensial baru yang bersifat sementara dan dapat digunakan untuk login serta mengakses Google Cloud selama durasi lab.
Untuk menyelesaikan lab ini, Anda memerlukan:
- Akses ke browser internet standar (disarankan browser Chrome).
Catatan: Gunakan jendela Samaran (direkomendasikan) atau browser pribadi untuk menjalankan lab ini. Hal ini akan mencegah konflik antara akun pribadi Anda dan akun siswa yang dapat menyebabkan tagihan ekstra pada akun pribadi Anda.
- Waktu untuk menyelesaikan lab. Ingat, setelah dimulai, lab tidak dapat dijeda.
Catatan: Hanya gunakan akun siswa untuk lab ini. Jika Anda menggunakan akun Google Cloud yang berbeda, Anda mungkin akan dikenai tagihan ke akun tersebut.
Cara memulai lab dan login ke Google Cloud Console
-
Klik tombol Start Lab. Jika Anda perlu membayar lab, dialog akan terbuka untuk memilih metode pembayaran.
Di sebelah kiri ada panel Lab Details yang berisi hal-hal berikut:
- Tombol Open Google Cloud console
- Waktu tersisa
- Kredensial sementara yang harus Anda gunakan untuk lab ini
- Informasi lain, jika diperlukan, untuk menyelesaikan lab ini
-
Klik Open Google Cloud console (atau klik kanan dan pilih Open Link in Incognito Window jika Anda menjalankan browser Chrome).
Lab akan menjalankan resource, lalu membuka tab lain yang menampilkan halaman Sign in.
Tips: Atur tab di jendela terpisah secara berdampingan.
Catatan: Jika Anda melihat dialog Choose an account, klik Use Another Account.
-
Jika perlu, salin Username di bawah dan tempel ke dialog Sign in.
{{{user_0.username | "Username"}}}
Anda juga dapat menemukan Username di panel Lab Details.
-
Klik Next.
-
Salin Password di bawah dan tempel ke dialog Welcome.
{{{user_0.password | "Password"}}}
Anda juga dapat menemukan Password di panel Lab Details.
-
Klik Next.
Penting: Anda harus menggunakan kredensial yang diberikan lab. Jangan menggunakan kredensial akun Google Cloud Anda.
Catatan: Menggunakan akun Google Cloud sendiri untuk lab ini dapat dikenai biaya tambahan.
-
Klik halaman berikutnya:
- Setujui persyaratan dan ketentuan.
- Jangan tambahkan opsi pemulihan atau autentikasi 2 langkah (karena ini akun sementara).
- Jangan mendaftar uji coba gratis.
Setelah beberapa saat, Konsol Google Cloud akan terbuka di tab ini.
Catatan: Untuk mengakses produk dan layanan Google Cloud, klik Navigation menu atau ketik nama layanan atau produk di kolom Search.
Mengaktifkan Cloud Shell
Cloud Shell adalah mesin virtual yang dilengkapi dengan berbagai alat pengembangan. Mesin virtual ini menawarkan direktori beranda persisten berkapasitas 5 GB dan berjalan di Google Cloud. Cloud Shell menyediakan akses command-line untuk resource Google Cloud Anda.
-
Klik Activate Cloud Shell
di bagian atas Konsol Google Cloud.
-
Klik jendela berikut:
- Lanjutkan melalui jendela informasi Cloud Shell.
- Beri otorisasi ke Cloud Shell untuk menggunakan kredensial Anda guna melakukan panggilan Google Cloud API.
Setelah terhubung, Anda sudah diautentikasi, dan project ditetapkan ke Project_ID, . Output berisi baris yang mendeklarasikan Project_ID untuk sesi ini:
Project Cloud Platform Anda dalam sesi ini disetel ke {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
adalah alat command line untuk Google Cloud. Alat ini sudah terinstal di Cloud Shell dan mendukung pelengkapan command line.
- (Opsional) Anda dapat menampilkan daftar nama akun yang aktif dengan perintah ini:
gcloud auth list
- Klik Authorize.
Output:
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
Untuk menetapkan akun aktif, jalankan:
$ gcloud config set account `ACCOUNT`
- (Opsional) Anda dapat menampilkan daftar ID project dengan perintah ini:
gcloud config list project
Output:
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Catatan: Untuk mendapatkan dokumentasi gcloud
yang lengkap di Google Cloud, baca panduan ringkasan gcloud CLI.
Tugas 1. Menyiapkan lingkungan
Lab ini menggunakan serangkaian sampel kode dan skrip yang dikembangkan untuk buku Data Science on the Google Cloud Platform, 2nd Edition dari O'Reilly Media, Inc. Lab ini mencakup konfigurasi Cloud SQL dan tugas mengimpor data yang dibahas di bagian pertama Bab 3, "Creating Compelling Dashboards". Anda akan meng-clone repositori sampel yang digunakan di Bab 2 dari GitHub ke Cloud Shell dan menjalankan semua tugas lab dari sana.
Membuat clone repositori Data Science on Google Cloud
- Di Cloud Shell, masukkan perintah berikut untuk membuat clone repositori:
git clone \
https://github.com/GoogleCloudPlatform/data-science-on-gcp/
- Ubah menjadi direktori repositori:
cd data-science-on-gcp/03_sqlstudio
- Buat variabel lingkungan yang akan digunakan nanti di lab untuk project ID Anda dan bucket penyimpanan yang berisi data Anda:
export PROJECT_ID=$(gcloud info --format='value(config.project)')
export BUCKET=${PROJECT_ID}-ml
- Masukkan perintah berikut untuk menyiapkan dan menaruh file ke bucket Cloud Storage:
gsutil cp create_table.sql \
gs://$BUCKET/create_table.sql
Tugas 2. Membuat instance Cloud SQL
- Masukkan perintah berikut untuk membuat instance Cloud SQL:
gcloud sql instances create flights \
--database-version=POSTGRES_13 --cpu=2 --memory=8GiB \
--region={{{project_0.default_region | "REGION"}}} --root-password=Passw0rd
Proses ini membutuhkan waktu beberapa menit hingga selesai.
Menguji tugas yang sudah selesai
Klik Periksa progres saya untuk memverifikasi tugas yang telah Anda jalankan. Jika berhasil membuat instance Cloud SQL, Anda akan melihat skor penilaian.
Membuat instance Cloud SQL.
- Buat variabel lingkungan dengan alamat IP Cloud Shell:
export ADDRESS=$(curl -s http://ipecho.net/plain)/32
- Beri instance Cloud Shell izin akses pengelolaan ke instance SQL Anda:
gcloud sql instances patch flights --authorized-networks $ADDRESS
- Saat diminta, tekan Y untuk menerima perubahan.
Menguji tugas yang sudah selesai
Klik Periksa progres saya untuk memverifikasi tugas yang telah Anda jalankan. Jika berhasil mengizinkan Cloud Shell untuk mengakses instance SQL, Anda akan melihat skor penilaian.
Izinkan instance Cloud Shell untuk mengakses instance SQL Anda.
Buat database dan tabel
Untuk mengimpor data ke tabel Postgres, Anda harus membuat database kosong dan tabel dengan skema yang benar terlebih dahulu.
-
Di Konsol Cloud, pada Navigation menu (
), klik SQL.
-
Untuk membuka halaman Overview sebuah instance, klik nama instance flights
.
-
Pilih Databases dari menu navigasi SQL di sebelah kiri.
-
Klik Create database.
-
Dalam dialog New database, beri nama database bts
.
-
Klik Create.
-
Untuk membuka halaman Overview sebuah instance, pilih Overview dari navigation menu SQL.
-
Klik IMPORT di bagian atas.
-
Di kolom file Cloud Storage, klik Browse.
-
Di bagian Buckets, klik panah di sebelah nama bucket Anda.
-
Pilih file create_table.sql
.
-
Klik Select.
-
Di bagian File format, pilih SQL.
-
Pilih Database bts
sebagai instance Cloud SQL Anda.
-
Klik Import untuk memulai pengimporan.
Beberapa detik kemudian, tabel kosong akan dibuat.
Menguji tugas yang sudah selesai
Klik Periksa progres saya untuk memverifikasi tugas yang telah Anda jalankan. Jika berhasil membuat database bts dan tabel flights menggunakan file create_table.sql, Anda akan melihat skor penilaian.
Membuat database bts dan tabel flights menggunakan file create_table.sql.
Tugas 3. Menambahkan data ke instance Cloud SQL
Anda telah membuat database dan tabel kosong, sekarang muat file CSV-nya ke dalam tabel ini. Memuat data Januari dengan membuka 201501.csv di bucket Anda dan menetapkan CSV sebagai format, bts sebagai database, dan flights sebagai tabel.
-
Di halaman instance Cloud SQL, klik IMPORT.
-
Di kolom file Cloud Storage, klik Browse, klik panah di sebelah nama bucket, lalu klik 201501.csv
.
-
Klik Select.
-
Untuk File format, pilih CSV.
-
Pilih database bts
, lalu ketik flights
sebagai tabel Anda.
-
Klik IMPORT.
Tugas 4. Berinteraksi dengan database
- Hubungkan instance Cloud SQL dari Cloud Shell menggunakan:
gcloud sql connect flights --user=postgres
-
Saat diminta memasukkan sandi, masukkan Passw0rd
. Anda mungkin tidak dapat melihat hurufnya saat mengetik.
-
Di perintah yang muncul, hubungkan database bts:
\c bts;
-
Saat diminta memasukkan sandi, masukkan Passw0rd
.
-
Kemudian, jalankan kueri untuk mendapatkan 5 bandara tersibuk:
SELECT "Origin", COUNT(*) AS num_flights
FROM flights GROUP BY "Origin"
ORDER BY num_flights DESC
LIMIT 5;
Meskipun kueri ini berjalan baik karena set data relatif kecil (hanya Januari), database akan melambat saat Anda menambahkan bulan-bulan lainnya.
Database relasional cocok untuk set data relatif kecil yang Anda beri kueri ad hoc untuk menampilkan sebagian kecil dari data yang ada. Untuk set data yang lebih besar, Anda dapat menyesuaikan performa database relasional dengan mengindeks kolom yang penting. Selain itu, karena database relasional biasanya mendukung transaksi dan menjamin konsistensi yang kuat, database ini merupakan pilihan yang sangat baik untuk data yang akan sering diperbarui.
Namun, database relasional bukan pilihan yang tepat jika:
- Data Anda sebagian besar bersifat hanya baca
- Jika ukuran set data Anda mencapai rentang terabyte
- Anda perlu memindai seluruh tabel (misalnya, untuk menghitung nilai maksimum sebuah kolom) atau jika aliran data Anda masuk dengan sangat cepat.
Alasan ini menjelaskan kasus penggunaan untuk keterlambatan penerbangan. Untuk kasus ini, Anda sebaiknya berganti dari database relasional ke analytics data warehouse—BigQuery. Analytics data warehouse akan memungkinkan kita menggunakan SQL dan jauh lebih mampu menangani set data besar dan kueri ad hoc (karena tidak memerlukan pengindeksan kolom).
Selamat!
Sekarang Anda sudah tahu cara membuat tabel dan mengimpor data teks yang telah disimpan di Cloud Storage ke Cloud SQL.
Langkah berikutnya/pelajari lebih lanjut
Berikut ini beberapa langkah selanjutnya:
Sertifikasi dan pelatihan Google Cloud
...membantu Anda mengoptimalkan teknologi Google Cloud. Kelas kami mencakup keterampilan teknis dan praktik terbaik untuk membantu Anda memahami dengan cepat dan melanjutkan proses pembelajaran. Kami menawarkan pelatihan tingkat dasar hingga lanjutan dengan opsi on demand, live, dan virtual untuk menyesuaikan dengan jadwal Anda yang sibuk. Sertifikasi membantu Anda memvalidasi dan membuktikan keterampilan serta keahlian Anda dalam teknologi Google Cloud.
Manual Terakhir Diperbarui pada 9 Juli 2024
Lab Terakhir Diuji pada 16 Juli 2024
Hak cipta 2025 Google LLC. Semua hak dilindungi undang-undang. Google dan logo Google adalah merek dagang dari Google LLC. Semua nama perusahaan dan produk lain mungkin adalah merek dagang masing-masing perusahaan yang bersangkutan.