Cet atelier présente BigQuery ML aux analystes de données. BigQuery ML permet aux utilisateurs de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL. Cet atelier présente une méthode de réglage des hyperparamètres qui spécifie l'option d'entraînement num_trials.
Dans cet atelier, vous allez utiliser l'exemple de table tlc_yellow_trips_2018 pour créer un modèle capable de prédire le pourboire d'un trajet en taxi. Vous pourrez constater une amélioration des performances d'environ 40 % (r2_score) avec les réglages d'hyperparamètres.
Objectifs
Dans cet atelier, vous allez utiliser BigQuery ML pour :
créer un modèle de régression linéaire via l'instruction CREATE MODEL en définissant num_trials sur 20 ;
afficher le descriptif des 20 essais à l'aide de la fonction ML.TRIAL_INFO ;
évaluer le modèle de ML à l'aide de la fonction ML.EVALUATE ;
effectuer des prédictions à l'aide du modèle de ML et de la fonction ML.PREDICT.
Préparation
Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.
Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Activer l'API BigQuery
Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur API et services > Bibliothèque.
Recherchez l'API BigQuery, puis cliquez sur Activer si elle n'est pas déjà activée.
Tâche 1 : Créer votre ensemble de données d'entraînement
La première tâche consiste à créer un ensemble de données BigQuery pour stocker vos données d'entraînement et votre modèle de ML. Procédez comme suit :
Dans le panneau Explorateur de la page BigQuery, cliquez sur Afficher les actions () à côté de l'ID de votre projet, puis sélectionnez Créer un ensemble de données.
Dans le champ ID de l'ensemble de données, saisissez bqml_tutorial, et dans le menu déroulant Emplacement des données, sélectionnez États-Unis (US).
Les ensembles de données publics sont actuellement stockés dans l'emplacement multirégional "US". Par souci de simplicité, utilisez le même emplacement pour votre ensemble de données.
Conservez les autres paramètres par défaut, puis cliquez sur Créer l'ensemble de données.
Pour cette tâche, vous allez matérialiser la table d'entrée d'entraînement avec 100 000 lignes.
Affichez le schéma de la table source tlc_yellow_trips_2018 (en accédant à ce lien dans un nouvel onglet).
Cliquez sur Saisir une nouvelle requête et collez la requête suivante dans la zone de texte de l'éditeur de requête pour créer la table des données d'entrée d'entraînement :
CREATE TABLE `bqml_tutorial.taxi_tip_input` AS
SELECT
* EXCEPT(tip_amount), tip_amount AS label
FROM
`bigquery-public-data.new_york_taxi_trips.tlc_yellow_trips_2018`
WHERE
tip_amount IS NOT NULL
LIMIT 100000
Cliquez sur Exécuter.
Tâche 3 : Créer votre modèle
Créez ensuite un modèle de régression linéaire avec des réglages d'hyperparamètres à l'aide de l'exemple de table tlc_yellow_trips_2018 de BigQuery.
La requête en SQL standard suivante permet de créer le modèle avec des réglages d'hyperparamètres :
CREATE MODEL `bqml_tutorial.hp_taxi_tip_model`
OPTIONS
(model_type='linear_reg',
num_trials=20,
max_parallel_trials=2) AS
SELECT
*
FROM
`bqml_tutorial.taxi_tip_input`
Détails de la requête
Le modèle LINEAR_REG est doté de deux hyperparamètres réglables : l1_reg et l2_reg. La requête qui précède utilise l'espace de recherche par défaut. Vous pouvez également spécifier explicitement l'espace de recherche :
En outre, ces autres options d'entraînement de réglage des hyperparamètres utilisent également leurs valeurs par défaut :
hparam_tuning_algorithm : "VIZIER_DEFAULT"
hparam_tuning_objectives : ["r2_score"]
max_parallel_trials est défini sur 2 pour accélérer le processus de réglage. Avec deux essais exécutés en permanence, l'intégralité du réglage devrait prendre environ autant de temps que l'exécution de 10 tâches d'entraînement en série au lieu de 20. Toutefois, notez que les deux essais simultanés ne peuvent bénéficier que de leurs résultats d'entraînement respectifs.
Exécuter la requête CREATE MODEL
Pour exécuter la requête CREATE MODEL qui permet de créer et d'entraîner votre modèle, procédez comme suit :
Dans la console Cloud, cliquez sur Saisir une nouvelle requête.
Saisissez la requête en SQL standard présentée ci-dessus dans la zone de texte de l'éditeur de requête.
Cliquez sur Exécuter.
L'exécution de la requête prend environ 17 minutes.
Suivez la progression du réglage dans les détails de l'exécution sous "Étapes" :
Tâche 4 : Obtenir des informations sur les essais
Pour afficher le descriptif de tous les essais, y compris leurs hyperparamètres, objectifs, états et essais optimaux, utilisez la fonction ML.TRIAL_INFO. Le résultat s'affiche dans la console Cloud après l'exécution du code SQL :
SELECT *
FROM
ML.TRIAL_INFO(MODEL `bqml_tutorial.hp_taxi_tip_model`)
Vous pouvez exécuter cette requête SQL dès qu'un essai est terminé. Si le réglage est arrêté avant la fin du traitement, tous les essais terminés restent utilisables.
Tâche 5 : Évaluer votre modèle
Après avoir créé votre modèle, affichez les métriques d'évaluation de tous les essais à l'aide de la fonction ML.EVALUATE ou via la console Google Cloud.
Exécutez ML.EVALUATE :
SELECT *
FROM
ML.EVALUATE(MODEL `bqml_tutorial.hp_taxi_tip_model`)
Pour tous les essais, ce code SQL extrait des métriques d'évaluation calculées avec les données de TEST.
Consultez la section Répartition des données pour connaître la différence entre les objectifs de ML.TRIAL_INFO et les métriques d'évaluation de ML.EVALUATE.
Vous pouvez également évaluer un essai spécifique en fournissant vos propres données. Consultez la section ML.EVALUATE pour en savoir plus.
Vérifier les métriques d'évaluation via la console Google Cloud
Vous pouvez également vérifier les métriques d'évaluation dans l'onglet Évaluation du modèle.
Tâche 6 : Utiliser votre modèle pour prédire les pourboires de trajets en taxi
Maintenant que vous avez évalué votre modèle, l'étape suivante consiste à vous en servir pour prédire le pourboire d'un trajet en taxi.
Utilisez la requête suivante pour prédire le pourboire :
SELECT
*
FROM
ML.PREDICT(MODEL `bqml_tutorial.hp_taxi_tip_model`,
(
SELECT
*
FROM
`bqml_tutorial.taxi_tip_input`
LIMIT 10))
Détails de la requête
La première instruction SELECT récupère toutes les colonnes, y compris predicted_label. Cette colonne est générée par la fonction ML.PREDICT. Lorsque vous utilisez la fonction ML.PREDICT, le nom de la colonne de sortie du modèle est predicted_label_column_name.
Par défaut, la prédiction est effectuée sur la base de l'essai optimal.
Pour choisir un autre essai, spécifiez le paramètre trial_id.
SELECT
*
FROM
ML.PREDICT(MODEL `bqml_tutorial.hp_taxi_tip_model`,
(
SELECT
*
FROM
`bqml_tutorial.taxi_tip_input`
LIMIT
10),
STRUCT(3 AS trial_id))
Pour en savoir plus sur l'utilisation des fonctions d'inférence de modèles, consultez les informations sur ML.PREDICT.
Tâche 7 : Effectuer un nettoyage
Pour éviter que les ressources utilisées dans le cadre de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Supprimer l'ensemble de données
Si vous supprimez votre projet, tous les ensembles de données et toutes les tables qui lui sont associés sont également supprimés. Si vous préférez réutiliser le projet, vous pouvez supprimer l'ensemble de données que vous avez créé dans ce tutoriel :
Si nécessaire, ouvrez la page BigQuery dans la console Cloud.
Dans le panneau Explorateur, cliquez sur Afficher les actions () à côté de votre ensemble de données, puis sur Supprimer.
Dans la boîte de dialogue "Supprimer l'ensemble de données", saisissez delete pour confirmer la suppression de cet ensemble, puis cliquez sur Supprimer.
Félicitations !
Vous savez désormais utiliser BigQuery ML pour :
créer un modèle de régression linéaire à l'aide de l'instruction CREATE MODEL en définissant num_trials sur 20 ;
afficher le descriptif des 20 essais à l'aide de la fonction ML.TRIAL_INFO ;
évaluer le modèle de ML à l'aide de la fonction ML.EVALUATE ;
effectuer des prédictions avec le modèle de ML et la fonction ML.PREDICT.
Terminer l'atelier
Une fois l'atelier terminé, cliquez sur End Lab (Terminer l'atelier). Qwiklabs supprime les ressources que vous avez utilisées, puis efface le compte.
Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez le nombre d'étoiles correspondant à votre note, saisissez un commentaire, puis cliquez sur Submit (Envoyer).
Le nombre d'étoiles que vous pouvez attribuer à un atelier correspond à votre degré de satisfaction :
1 étoile = très mécontent(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)
Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.
Pour soumettre des commentaires, suggestions ou corrections, veuillez utiliser l'onglet Support (Assistance).
Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.
Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.
Utilisez la navigation privée
Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
Cliquez sur Ouvrir la console en navigation privée
Connectez-vous à la console
Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.
Ce contenu n'est pas disponible pour le moment
Nous vous préviendrons par e-mail lorsqu'il sera disponible
Parfait !
Nous vous contacterons par e-mail s'il devient disponible
Un atelier à la fois
Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci
Utilisez la navigation privée pour effectuer l'atelier
Ouvrez une fenêtre de navigateur en mode navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
Dans cet atelier, vous allez utiliser les réglages d'hyperparamètres BigQuery ML pour améliorer les performances d'un modèle.
Durée :
0 min de configuration
·
Accessible pendant 90 min
·
Terminé après 90 min