In questo lab possiedi un parco taxi di New York e vuoi monitorare l'andamento della tua attività in tempo reale. Creerai una pipeline di dati in modalità flusso per acquisire le entrate dei taxi, il numero di passeggeri, lo stato delle corse e molto altro, quindi visualizzerai i risultati in una dashboard di gestione.
Obiettivi
In questo lab imparerai a:
Creare un job Dataflow da un modello.
Inviare a BigQuery una pipeline Dataflow in modalità flusso.
Monitorare una pipeline Dataflow in BigQuery.
Analizzare i risultati con SQL.
Visualizzare le metriche chiave in Looker Studio.
Configurazione e requisiti
Per ciascun lab, riceverai un nuovo progetto Google Cloud e un insieme di risorse per un periodo di tempo limitato senza alcun costo aggiuntivo.
Fai clic sul pulsante Avvia lab. Se devi effettuare il pagamento per il lab, si apre una finestra popup per permetterti di selezionare il metodo di pagamento.
A sinistra, trovi il riquadro Dettagli lab con le seguenti informazioni:
Il pulsante Apri console Google Cloud
Tempo rimanente
Credenziali temporanee da utilizzare per il lab
Altre informazioni per seguire questo lab, se necessario
Fai clic su Apri console Google Cloud (o fai clic con il tasto destro del mouse e seleziona Apri link in finestra di navigazione in incognito se utilizzi il browser Chrome).
Il lab avvia le risorse e apre un'altra scheda con la pagina di accesso.
Suggerimento: disponi le schede in finestre separate posizionate fianco a fianco.
Nota: se visualizzi la finestra di dialogo Scegli un account, fai clic su Usa un altro account.
Se necessario, copia il Nome utente di seguito e incollalo nella finestra di dialogo di accesso.
{{{user_0.username | "Username"}}}
Puoi trovare il Nome utente anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Copia la Password di seguito e incollala nella finestra di dialogo di benvenuto.
{{{user_0.password | "Password"}}}
Puoi trovare la Password anche nel riquadro Dettagli lab.
Fai clic su Avanti.
Importante: devi utilizzare le credenziali fornite dal lab. Non utilizzare le credenziali del tuo account Google Cloud.
Nota: utilizzare il tuo account Google Cloud per questo lab potrebbe comportare addebiti aggiuntivi.
Fai clic nelle pagine successive:
Accetta i termini e le condizioni.
Non inserire opzioni di recupero o l'autenticazione a due fattori, perché si tratta di un account temporaneo.
Non registrarti per le prove gratuite.
Dopo qualche istante, la console Google Cloud si apre in questa scheda.
Nota: per visualizzare un menu con un elenco di prodotti e servizi Google Cloud, fai clic sul menu di navigazione in alto a sinistra oppure digita il nome del servizio o del prodotto nel campo di ricerca.
Attiva Google Cloud Shell
Google Cloud Shell è una macchina virtuale in cui sono caricati strumenti per sviluppatori. Offre una home directory permanente da 5 GB e viene eseguita su Google Cloud.
Google Cloud Shell fornisce l'accesso da riga di comando alle risorse Google Cloud.
Nella barra degli strumenti in alto a destra della console Cloud, fai clic sul pulsante Apri Cloud Shell.
Fai clic su Continua.
Bastano pochi istanti per eseguire il provisioning e connettersi all'ambiente. Quando la connessione è attiva, l'autenticazione è già avvenuta e il progetto è impostato sul tuo PROJECT_ID. Ad esempio:
gcloud è lo strumento a riga di comando di Google Cloud. È preinstallato su Cloud Shell e supporta il completamento.
Puoi visualizzare il nome dell'account attivo con questo comando:
BigQuery è un data warehouse serverless. Le tabelle in BigQuery sono organizzate in set di dati. In questo lab i dati sui taxi verranno inviati in modalità flusso dal file autonomo tramite Dataflow per essere archiviati in BigQuery. Con questa configurazione, qualsiasi nuovo file di dati depositato nel bucket Cloud Storage di origine verrebbe automaticamente elaborato per il caricamento.
Utilizza una delle seguenti opzioni per creare un nuovo set di dati BigQuery:
Opzione 1: strumento a riga di comando
In Cloud Shell (), esegui questo comando per creare il set di dati taxirides.
In Impostazioni di partizionamento e clustering, seleziona timestamp.
Fai clic su Crea tabella.
Attività 2: copia gli artefatti richiesti per il lab
In questa attività, sposterai i file richiesti nel tuo progetto.
Cloud Storage permette di archiviare e recuperare qualsiasi volume di dati in qualsiasi momento a livello globale. Puoi utilizzare Cloud Storage per scenari diversi, tra cui pubblicazione di contenuti di siti web, archiviazione di dati e disaster recovery o distribuzione agli utenti di oggetti di dati di grandi dimensioni tramite download diretto.
Durante l'avvio del lab è stato creato un bucket Cloud Storage per te.
In Cloud Shell (), esegui questo comando per spostare i file necessari per il job Dataflow.
In Nome della funzione JavaScript definita dall'utente, incolla o digita:
transform
In N. massimo di worker, digita 2.
In Numero di worker, digita 1.
Deseleziona Usa il tipo di macchina predefinito.
In Uso generico, scegli le seguenti opzioni:
Serie: E2
Tipo di macchina: e2-medium (2 vCPU, 4 GB di memoria)
Fai clic su Esegui job.
È stato avviato un nuovo job in modalità flusso. Ora puoi visualizzare una rappresentazione visiva della pipeline di dati. Serviranno dai 3 ai 5 minuti prima che i dati inizino a spostarsi in BigQuery.
Nota: se il job Dataflow ha esito negativo la prima volta, crea un nuovo modello di job con il nuovo nome ed esegui il job.
Attività 4: analizza i dati sui taxi utilizzando BigQuery
In questa attività, analizzerai i dati durante l'elaborazione in modalità flusso.
Nella console Cloud, nel menu di navigazione (), fai clic su BigQuery.
Se viene visualizzata la finestra di dialogo di benvenuto, fai clic su Fine.
In Editor di query, digita quanto segue, quindi fai clic su Esegui:
SELECT * FROM taxirides.realtime LIMIT 10
Nota: se non viene restituito alcun record, attendi un altro minuto ed esegui nuovamente la query precedente (Dataflow impiega 3-5 minuti per configurare il flusso).
Dovresti vedere un output simile al seguente:
Attività 5: esegui aggregazioni sul flusso per il reporting
In questa attività, calcolerai le aggregazioni nel flusso per il reporting.
In Editor di query, cancella la query attuale.
Copia e incolla questa query e fai clic su Esegui.
WITH streaming_data AS (
SELECT
timestamp,
TIMESTAMP_TRUNC(timestamp, HOUR, 'UTC') AS hour,
TIMESTAMP_TRUNC(timestamp, MINUTE, 'UTC') AS minute,
TIMESTAMP_TRUNC(timestamp, SECOND, 'UTC') AS second,
ride_id,
latitude,
longitude,
meter_reading,
ride_status,
passenger_count
FROM
taxirides.realtime
ORDER BY timestamp DESC
LIMIT 1000
)
# calculate aggregations on stream for reporting:
SELECT
ROW_NUMBER() OVER() AS dashboard_sort,
minute,
COUNT(DISTINCT ride_id) AS total_rides,
SUM(meter_reading) AS total_revenue,
SUM(passenger_count) AS total_passengers
FROM streaming_data
GROUP BY minute, timestamp
Nota: assicurati che Dataflow stia registrando i dati in BigQuery prima di procedere con l'attività successiva.
Il risultato mostra i parametri chiave al minuto per ogni corsa del taxi.
Fai clic su Salva > Salva query.
Nella finestra di dialogo Salva query, nel campo Nome, digita Query salvata personale.
In Regione, assicurati che la regione corrisponda a quella del lab Qwiklabs.
Fai clic su Salva.
Attività 6: arresta il job Dataflow
In questa attività, arresterai il job Dataflow per liberare risorse per il tuo progetto.
Nella console Cloud, nel menu di navigazione (), fai clic su Visualizza tutti i prodotti > Analytics > Dataflow.
Fai clic su streaming-taxi-pipeline o sul nome del nuovo job.
Fai clic su Arresta, quindi seleziona Annulla > Arresta job.
Attività 7: crea una dashboard in tempo reale
In questa attività, creerai una dashboard in tempo reale per visualizzare i dati.
Nella console Cloud, nel menu di navigazione (), fai clic su BigQuery.
Nel riquadro Explorer, espandi il tuo ID progetto.
Espandi Query, quindi fai clic su Query salvata personale.
La tua query viene caricata nell'editor di query.
Fai clic su Esegui.
Nella sezione Risultati delle query, fai clic su Apri in > Looker Studio.
Viene visualizzato Looker Studio. Fai clic su Inizia.
Nella finestra Looker Studio, fai clic sul grafico a barre.
(
Viene visualizzato il riquadro Grafico.
Fai clic su Aggiungi un grafico, quindi seleziona Grafico combinato.
Nel riquadro Configurazione, in Dimensione intervallo di dati, passa il mouse sopra la voce minute (Date) e fai clic su X per rimuoverla.
Nel riquadro Dati, seleziona la voce dashboard_sort e trascinala in Configurazione > Dimensione intervallo di dati > Aggiungi dimensione.
In Configurazione > Dimensione, fai clic su minute, quindi seleziona dashboard_sort.
In Configurazione > Metrica, fai clic su dashboard_sort, quindi seleziona total_rides.
In Configurazione > Metrica, fai clic su Conteggio record, quindi seleziona total_passengers.
In Configurazione > Metrica, fai clic su Aggiungi metrica, quindi seleziona total_revenue.
In Configurazione > Ordina, fai clic su total_rides, quindi seleziona dashboard_sort.
In Configurazione > Ordina, fai clic su Crescente.
Il grafico dovrebbe essere simile a questo:
Nota: la visualizzazione dei dati con una granularità al minuto non è attualmente supportata in Looker Studio come timestamp. Ecco perché abbiamo creato la nostra dimensione dashboard_sort.
Quando la dashboard ti soddisfa, fai clic su Salva e condividi per salvare questa origine dati.
Se ti viene richiesto di completare la configurazione dell'account, digita i dettagli del paese e dell'azienda, accetta i termini e le condizioni, quindi fai clic su Continua.
Se ti viene chiesto di specificare quali aggiornamenti vuoi ricevere, rispondi no a tutti, quindi fai clic su Continua.
Se viene visualizzata la finestra Verifica l'accesso ai dati prima di salvare, fai clic su Accetta e salva.
Se ti viene chiesto di scegliere un account, seleziona il tuo Account studente.
Ogni volta che un utente visita la tua dashboard, sarà aggiornato con le ultime transazioni. Puoi provarlo tu stesso facendo clic su Altre opzioni (), quindi su Aggiorna dati.
Attività 8: crea una dashboard delle serie temporali
In questa attività, creerai un grafico delle serie temporali.
Fai clic su questo link a Looker Studio per aprire Looker Studio in una nuova scheda del browser.
Nella pagina Report, nella sezione Inizia con un modello, fai clic sul modello [+] Report vuoto.
Si apre un nuovo report vuoto con la finestra Aggiungi dati al report.
Dall'elenco Connettori Google, seleziona il riquadro BigQuery.
Fai clic su Query personalizzata, quindi seleziona il tuo ProjectID. Dovrebbe apparire nel formato qwiklabs-gcp-xxxxxxx.
In Inserisci query personalizzata, incolla questa query:
SELECT
*
FROM
taxirides.realtime
WHERE
ride_status='enroute'
Fai clic su Aggiungi > Aggiungi al report.
Viene visualizzato un nuovo report senza titolo. Il completamento dell'aggiornamento dello schermo potrebbe richiedere fino a un minuto.
Crea un grafico delle serie temporali
Nel riquadro Dati, fai clic su Aggiungi un campo > Aggiungi campo calcolato.
Fai clic su Tutti i campi nell'angolo a sinistra.
Modifica il tipo di campo timestamp in Data e ora > Data, ora e minuti (AAAAMMGGhhmm).
Nella finestra di dialogo per la modifica del timestamp, fai clic su Continua, quindi su Fine.
Nel menu in alto, fai clic su Aggiungi un grafico.
Scegli Grafico serie temporali.
Posiziona il grafico nell'angolo in basso a sinistra, nello spazio vuoto.
In Configurazione > Dimensione, fai clic su timestamp (Date), quindi seleziona timestamp.
In Configurazione > Dimensione, fai clic su timestamp, quindi seleziona calendar.
In Tipo di dati, seleziona Data e ora > Data, ora e minuti.
Fai clic all'esterno della finestra di dialogo per chiuderla. Non devi aggiungere un nome.
In Configurazione > Metrica, fai clic su Conteggio record, quindi seleziona meter reading.
Complimenti!
In questo lab hai utilizzato Dataflow per inviare dati in modalità flusso da una pipeline a BigQuery.
Termina il lab
Una volta completato il lab, fai clic su Termina lab. Google Cloud Skills Boost rimuove le risorse che hai utilizzato ed esegue la pulizia dell'account.
Avrai la possibilità di inserire una valutazione in merito alla tua esperienza. Seleziona il numero di stelle applicabile, inserisci un commento, quindi fai clic su Invia.
Il numero di stelle corrisponde alle seguenti valutazioni:
1 stella = molto insoddisfatto
2 stelle = insoddisfatto
3 stelle = esperienza neutra
4 stelle = soddisfatto
5 stelle = molto soddisfatto
Se non vuoi lasciare un feedback, chiudi la finestra di dialogo.
Per feedback, suggerimenti o correzioni, utilizza la scheda Assistenza.
Copyright 2024 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.
I lab creano un progetto e risorse Google Cloud per un periodo di tempo prestabilito
I lab hanno un limite di tempo e non possono essere messi in pausa. Se termini il lab, dovrai ricominciare dall'inizio.
In alto a sinistra dello schermo, fai clic su Inizia il lab per iniziare
Utilizza la navigazione privata
Copia il nome utente e la password forniti per il lab
Fai clic su Apri console in modalità privata
Accedi alla console
Accedi utilizzando le tue credenziali del lab. L'utilizzo di altre credenziali potrebbe causare errori oppure l'addebito di costi.
Accetta i termini e salta la pagina di ripristino delle risorse
Non fare clic su Termina lab a meno che tu non abbia terminato il lab o non voglia riavviarlo, perché il tuo lavoro verrà eliminato e il progetto verrà rimosso
Questi contenuti non sono al momento disponibili
Ti invieremo una notifica via email quando sarà disponibile
Bene.
Ti contatteremo via email non appena sarà disponibile
Un lab alla volta
Conferma per terminare tutti i lab esistenti e iniziare questo
Utilizza la navigazione privata per eseguire il lab
Utilizza una finestra del browser in incognito o privata per eseguire questo lab. In questo modo eviterai eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
Vuoi creare pipeline di dati in modalità flusso che riforniscono le dashboard di gestione? In questo lab creerai una pipeline che invia grandi volumi di record in modalità flusso a BigQuery per l'analisi e la visualizzazione.
Durata:
Configurazione in 0 m
·
Accesso da 60 m
·
Completamento in 60 m