Checkpoint
Create a Dataproc cluster
/ 50
Submit a job
/ 50
Dataproc: Qwik Start - Riga di comando
GSP104
Panoramica
Cloud Dataproc è un servizio cloud completamente gestito, veloce e facile da utilizzare per eseguire cluster Apache Spark e Apache Hadoop in modo semplice ed economico. Ora puoi eseguire in pochi secondi o minuti operazioni che prima richiedevano ore o giorni. Puoi creare rapidamente cluster Cloud Dataproc e ridimensionarli in qualsiasi momento, così non dovrai preoccuparti che le pipeline dei dati superino le dimensioni dei cluster.
Questo lab illustra come utilizzare gcloud su Google Cloud per creare un cluster Google Cloud Dataproc, eseguire un semplice job Apache Spark nel cluster, quindi modificare il numero di worker nel cluster.
Configurazione e requisiti
Prima di fare clic sul pulsante Avvia lab
Leggi le seguenti istruzioni. I lab sono a tempo e non possono essere messi in pausa. Il timer si avvia quando fai clic su Avvia lab e ti mostra per quanto tempo avrai a disposizione le risorse Google Cloud.
Con questo lab pratico avrai la possibilità di completare le attività in prima persona, in un ambiente cloud reale e non di simulazione o demo. Riceverai delle nuove credenziali temporanee che potrai utilizzare per accedere a Google Cloud per la durata del lab.
Per completare il lab, avrai bisogno di:
- Accesso a un browser internet standard (Chrome è il browser consigliato).
- È ora di completare il lab: ricorda che, una volta iniziato, non puoi metterlo in pausa.
Come avviare il lab e accedere alla console Google Cloud
-
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento. A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
- Pulsante Apri console Google
- Tempo rimanente
- Credenziali temporanee da utilizzare per il lab
- Altre informazioni per seguire questo lab, se necessario
-
Fai clic su Apri console Google. Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Note: se visualizzi la finestra di dialogo Scegli un account, fai clic su Utilizza un altro account. -
Se necessario, copia il Nome utente dal riquadro Dettagli lab e incollalo nella finestra di dialogo di accesso. Fai clic su Avanti.
-
Copia la Password dal riquadro Dettagli lab e incollala nella finestra di dialogo di benvenuto. Fai clic su Avanti.
Importante: devi utilizzare le credenziali presenti nel riquadro di sinistra. Non utilizzare le tue credenziali Google Cloud Skills Boost. Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi. -
Fai clic nelle pagine successive:
- Accetta i termini e le condizioni.
- Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
- Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Attiva Cloud Shell
Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud. Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.
- Fai clic su Attiva Cloud Shell nella parte superiore della console Google Cloud.
Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. L'output contiene una riga che dichiara il PROJECT_ID per questa sessione:
gcloud
è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento tramite tasto Tab.
- (Facoltativo) Puoi visualizzare il nome dell'account attivo con questo comando:
-
Fai clic su Autorizza.
-
L'output dovrebbe avere ora il seguente aspetto:
Output:
- (Facoltativo) Puoi elencare l'ID progetto con questo comando:
Output:
Output di esempio:
gcloud
, in Google Cloud, fai riferimento alla Panoramica dell'interfaccia a riga di comando gcloud.
Attività 1: crea un cluster
- Esegui il comando seguente in Cloud Shell per impostare la regione:
- Dataproc crea i bucket temporanei e di gestione temporanea che vengono condivisi tra i cluster nella stessa regione. Poiché non stiamo specificando un account da usare per Dataproc, verrà usato quello di servizio predefinito di Compute Engine, che per impostazione predefinita non ha le autorizzazioni per i bucket di archiviazione. Aggiungiamole.
- Per prima cosa, esegui questi comandi per recuperare PROJECT_ID e PROJECT_NUMBER:
- Ora esegui il comando seguente per assegnare il ruolo Amministratore Storage all'account di servizio predefinito di Compute Engine:
- Esegui questo comando per creare un cluster chiamato
example-cluster
con VM e2-standard-4 e impostazioni predefinite di Cloud Dataproc:
- Se ti viene richiesto di confermare una zona per il cluster, inserisci Y.
La creazione del cluster richiede qualche minuto.
Quando viene visualizzato il messaggio "Created" (Creato), tutto è pronto per il passaggio successivo.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai creato un custer Dataproc correttamente, sarà visualizzato un punteggio di valutazione.
Attività 2: invia un job
- Esegui questo comando per inviare un job Spark di esempio che calcola il valore approssimativo di pi greco:
Il comando specifica:
- Che deve essere eseguito un job spark sul cluster
cluster-esempio
. - La
classe
che contiene il metodo principale per l'applicazione del job che calcola il valore di pi greco. - Il percorso del file jar che contiene il codice del job.
- I parametri da passare al job. Nel nostro caso, il numero di attività, che è pari a
1000
.
L'esecuzione del job e l'output finale vengono visualizzati nella finestra del terminale.
Verifica l'attività completata
Fai clic su Controlla i miei progressi per verificare l'attività eseguita. Se hai inviato un job correttamente, sarà visualizzato un punteggio di valutazione.
Attività 3: aggiorna un cluster
- Per cambiare il numero di worker nel cluster e impostarlo su 4, esegui il comando seguente:
I dettagli aggiornati del cluster vengono visualizzati nell'output del comando:
- Per diminuire il numero di nodi worker, puoi eseguire lo stesso comando:
Ora sei in grado di creare un cluster Dataproc e modificare il numero di worker dalla riga di comando di gcloud
su Google Cloud.
Attività 4: verifica le tue conoscenze
Di seguito, sono riportate alcune domande a scelta multipla che servono a consolidare le tue conoscenze relative ai concetti di questo lab. Rispondi alle domande al meglio delle tue capacità.
Complimenti!
Hai scoperto come utilizzare gcloud su Google Cloud mediante la creazione di un cluster Google Cloud Dataproc.
Completa la Quest
Questo self-paced lab fa parte della Quest Baseline: Data, ML, AI. Una Quest è una serie di lab collegati tra loro che formano un percorso di apprendimento. Il completamento della Quest ti permette di ottenere un badge come riconoscimento dell'obiettivo raggiunto. Puoi rendere pubblici i tuoi badge inserendone i link nel tuo CV online o sui social media. Iscriviti alla Quest e ricevi subito un riconoscimento per aver completato questo lab. Fai riferimento al catalogo Google Cloud Skills Boost per tutte le Quest disponibili.
Passaggi successivi/Scopri di più
Questo lab fa anche parte di una serie di lab chiamata Qwik Starts, pensata per offrirti un piccolo assaggio delle diverse funzionalità disponibili in Google Cloud. Cerca "Qwik Starts" nel catalogo dei lab per trovare il prossimo lab da seguire.
Formazione e certificazione Google Cloud
… per utilizzare al meglio le tecnologie Google Cloud. I nostri corsi ti consentono di sviluppare competenze tecniche e best practice per aiutarti a metterti subito al passo e avanzare nel tuo percorso di apprendimento. Offriamo vari livelli di formazione, dal livello base a quello avanzato, con opzioni di corsi on demand, dal vivo e virtuali, in modo da poter scegliere il più adatto in base ai tuoi impegni. Le certificazioni ti permettono di confermare e dimostrare le tue abilità e competenze relative alle tecnologie Google Cloud.
Ultimo aggiornamento del manuale: 23 ottobre 2023
Ultimo test del lab: 23 ottobre 2023
Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.