I modelli di machine learning possono consumare solo dati numerici e questi dati numerici devono essere 1 o 0. I dati sono considerati disorganizzati o disordinati se mancano i valori degli attributi, se contengono rumore o outlier, se ci sono duplicati, dati errati o nomi delle colonne in maiuscolo/minuscolo o se, in sostanza, non sono pronti per essere importati in un algoritmo di machine learning.
In questo lab, verranno presentati e risolti alcuni dei problemi più comuni legati ai dati disordinati. Tieni presente che problemi diversi richiederanno metodi diversi, che vanno oltre l'ambito di interesse di questo blocco note.
Obiettivi
In questo lab, imparerai a:
Recuperare i valori mancanti.
Convertire la colonna di caratteristiche "Data" in un formato data/ora.
Rinominare una colonna di caratteristiche e rimuovere un valore da una colonna di caratteristiche.
Creare caratteristiche di codifica one-hot.
Capire le conversioni temporali delle caratteristiche.
Configurazione e requisiti
Per ciascun lab, riceverai un nuovo progetto Google Cloud e un insieme di risorse per un periodo di tempo limitato senza alcun costo aggiuntivo.
Accedi a Qwiklabs utilizzando una finestra di navigazione in incognito.
Tieni presente la durata dell'accesso al lab (ad esempio, 1:15:00) e assicurati di finire entro quell'intervallo di tempo.
Non è disponibile una funzionalità di pausa. Se necessario, puoi riavviare il lab ma dovrai ricominciare dall'inizio.
Quando è tutto pronto, fai clic su Inizia lab.
Annota le tue credenziali del lab (Nome utente e Password). Le userai per accedere a Google Cloud Console.
Fai clic su Apri console Google.
Fai clic su Utilizza un altro account e copia/incolla le credenziali per questo lab nei prompt.
Se utilizzi altre credenziali, compariranno errori oppure ti verranno addebitati dei costi.
Accetta i termini e salta la pagina di ripristino delle risorse.
Attività 1: configura l'ambiente
Abilita l'API Vertex AI
Nella console Google Cloud, nel menu di navigazione, fai clic su Vertex AI > Dashboard.
Fai clic su ABILITA TUTTE LE API CONSIGLIATE.
Attività 2: avvia l'istanza di Vertex AI Notebooks
Nella console Google Cloud, nel menu di navigazione, fai clic su Vertex AI > Workbench. Seleziona Blocchi note gestiti dall'utente.
Nella pagina delle istanze di blocco note, fai clic su Nuovo blocco note > TensorFlow Enterprise > TensorFlow Enterprise 2.11 (con LTS) > Senza GPU.
Nella finestra di dialogo Nuovo blocco note, conferma il nome della macchina virtuale di deep learning; se non vuoi modificare la regione e la zona, lascia tutte le impostazioni invariate e fai clic su Crea.
L'avvio della nuova VM richiederà 2-3 minuti.
Fai clic su Apri JupyterLab.
Si aprirà una finestra JupyterLab in una nuova scheda.
Se viene visualizzato il popup "Build recommended" (Crea consigliata), fai clic su Crea. Se un messaggio ti informa che la creazione non è riuscita, ignoralo.
Attività 3: clona un repository del corso nell'istanza di Vertex AI Notebooks
Il repository GitHub contiene sia il file del lab sia i file delle soluzioni per il corso.
Copia ed esegui il seguente codice nella prima cella del tuo notebook per clonare il repository training-data-analyst.
Per confermare di aver clonato il repository, fai doppio clic sulla directory training-data-analyst e assicurati di poterne vedere il contenuto.
Attività 4: migliora la qualità dei dati
Nell'interfaccia del blocco note, passa a training-data-analyst > courses > machine_learning > deepdive2 > launching_into_ml > labs e apri improve_data_quality.ipynb.
Nell'interfaccia del blocco note, fai clic su Modifica > Cancella tutti gli output.
Leggi attentamente le istruzioni del blocco note e compila le righe contrassegnate con #TODO dove devi completare il codice, se necessario.
Nota: Suggerimenti
Per eseguire la cella corrente, fai clic sulla cella e premi MAIUSC+INVIO. Gli altri comandi delle celle sono elencati nella UI del blocco note sotto la voce Esegui.
Potrebbero anche essere forniti suggerimenti per le attività per guidarti. Evidenzia il testo per leggere i suggerimenti (sono scritti in bianco).
Se hai bisogno di ulteriore assistenza, dai un'occhiata alla soluzione completa passando a training-data-analyst > courses > machine_learning > deepdive2 > launching_into_ml > solutions e apri improve_data_quality.ipynb.
Terminare il lab
Una volta completato il lab, fai clic su Termina lab. Qwiklabs rimuove le risorse che hai utilizzato ed esegue la pulizia dell'account.
Avrai la possibilità di inserire una valutazione in merito alla tua esperienza. Seleziona il numero di stelle applicabile, inserisci un commento, quindi fai clic su Invia.
Il numero di stelle corrisponde alle seguenti valutazioni:
1 stella = molto insoddisfatto
2 stelle = insoddisfatto
3 stelle = esperienza neutra
4 stelle = soddisfatto
5 stelle = molto soddisfatto
Se non vuoi lasciare un feedback, chiudi la finestra di dialogo.
Per feedback, suggerimenti o correzioni, utilizza la scheda Assistenza.
Copyright 2020 Google LLC Tutti i diritti riservati. Google e il logo Google sono marchi di Google LLC. Tutti gli altri nomi di società e prodotti sono marchi delle rispettive società a cui sono associati.
I lab creano un progetto e risorse Google Cloud per un periodo di tempo prestabilito
I lab hanno un limite di tempo e non possono essere messi in pausa. Se termini il lab, dovrai ricominciare dall'inizio.
In alto a sinistra dello schermo, fai clic su Inizia il lab per iniziare
Utilizza la navigazione privata
Copia il nome utente e la password forniti per il lab
Fai clic su Apri console in modalità privata
Accedi alla console
Accedi utilizzando le tue credenziali del lab. L'utilizzo di altre credenziali potrebbe causare errori oppure l'addebito di costi.
Accetta i termini e salta la pagina di ripristino delle risorse
Non fare clic su Termina lab a meno che tu non abbia terminato il lab o non voglia riavviarlo, perché il tuo lavoro verrà eliminato e il progetto verrà rimosso
Questi contenuti non sono al momento disponibili
Ti invieremo una notifica via email quando sarà disponibile
Bene.
Ti contatteremo via email non appena sarà disponibile
Un lab alla volta
Conferma per terminare tutti i lab esistenti e iniziare questo
Utilizza la navigazione privata per eseguire il lab
Utilizza una finestra del browser in incognito o privata per eseguire questo lab. In questo modo eviterai eventuali conflitti tra il tuo account personale e l'account Studente, che potrebbero causare addebiti aggiuntivi sul tuo account personale.
In questo lab, verranno presentati e risolti alcuni dei problemi più comuni legati ai dati "disordinati". Tieni presente che problemi diversi richiederanno metodi diversi, che vanno oltre l'ambito di interesse di questo blocco note.
Durata:
Configurazione in 0 m
·
Accesso da 45 m
·
Completamento in 30 m