Accédez à plus de 700 ateliers et cours

Utiliser les réglages d'hyperparamètres BigQuery ML pour améliorer les performances du modèle

Atelier 1 heure 30 minutes universal_currency_alt 5 crédits show_chart Avancé

info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.

Présentation
Préparation
Tâche 1 : Créer votre ensemble de données d'entraînement
Tâche 2 : Créer votre table d'entrée d'entraînement
Tâche 3 : Créer votre modèle
Tâche 4 : Obtenir des informations sur les essais
Tâche 5 : Évaluer votre modèle
Tâche 6 : Utiliser votre modèle pour prédire les pourboires de trajets en taxi
Tâche 7 : Effectuer un nettoyage
Félicitations !
Terminer l'atelier

Accédez à plus de 700 ateliers et cours

Présentation

Cet atelier présente BigQuery ML aux analystes de données. BigQuery ML permet aux utilisateurs de créer et d'exécuter des modèles de machine learning dans BigQuery à l'aide de requêtes SQL. Cet atelier présente une méthode de réglage des hyperparamètres qui spécifie l'option d'entraînement num_trials.

Dans cet atelier, vous allez utiliser l'exemple de table tlc_yellow_trips_2018 pour créer un modèle capable de prédire le pourboire d'un trajet en taxi. Vous pourrez constater une amélioration des performances d'environ 40 % (r2_score) avec les réglages d'hyperparamètres.

Objectifs

Dans cet atelier, vous allez utiliser BigQuery ML pour :

créer un modèle de régression linéaire via l'instruction CREATE MODEL en définissant num_trials sur 20 ;
afficher le descriptif des 20 essais à l'aide de la fonction ML.TRIAL_INFO ;
évaluer le modèle de ML à l'aide de la fonction ML.EVALUATE ;
effectuer des prédictions à l'aide du modèle de ML et de la fonction ML.PREDICT.

Préparation

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.
Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.
Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.
Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.
Cliquez sur Ouvrir la console Google.
Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.
Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Activer l'API BigQuery

Dans la console Google Cloud, accédez au menu de navigation (), puis cliquez sur API et services > Bibliothèque.
Recherchez l'API BigQuery, puis cliquez sur Activer si elle n'est pas déjà activée.

Tâche 1 : Créer votre ensemble de données d'entraînement

La première tâche consiste à créer un ensemble de données BigQuery pour stocker vos données d'entraînement et votre modèle de ML. Procédez comme suit :

Dans le panneau Explorateur de la page BigQuery, cliquez sur Afficher les actions () à côté de l'ID de votre projet, puis sélectionnez Créer un ensemble de données.
Dans le champ ID de l'ensemble de données, saisissez bqml_tutorial, et dans le menu déroulant Emplacement des données, sélectionnez États-Unis (US).
Les ensembles de données publics sont actuellement stockés dans l'emplacement multirégional "US". Par souci de simplicité, utilisez le même emplacement pour votre ensemble de données.
Conservez les autres paramètres par défaut, puis cliquez sur Créer l'ensemble de données.

Tâche 2 : Créer votre table d'entrée d'entraînement

Pour cette tâche, vous allez matérialiser la table d'entrée d'entraînement avec 100 000 lignes.

Affichez le schéma de la table source tlc_yellow_trips_2018 (en accédant à ce lien dans un nouvel onglet).
Cliquez sur Saisir une nouvelle requête et collez la requête suivante dans la zone de texte de l'éditeur de requête pour créer la table des données d'entrée d'entraînement :

CREATE TABLE `bqml_tutorial.taxi_tip_input` AS SELECT * EXCEPT(tip_amount), tip_amount AS label FROM `bigquery-public-data.new_york_taxi_trips.tlc_yellow_trips_2018` WHERE tip_amount IS NOT NULL LIMIT 100000

Cliquez sur Exécuter.

Tâche 3 : Créer votre modèle

Créez ensuite un modèle de régression linéaire avec des réglages d'hyperparamètres à l'aide de l'exemple de table tlc_yellow_trips_2018 de BigQuery.

La requête en SQL standard suivante permet de créer le modèle avec des réglages d'hyperparamètres :

CREATE MODEL `bqml_tutorial.hp_taxi_tip_model` OPTIONS (model_type='linear_reg', num_trials=20, max_parallel_trials=2) AS SELECT * FROM `bqml_tutorial.taxi_tip_input`

Détails de la requête

Le modèle LINEAR_REG est doté de deux hyperparamètres réglables : l1_reg et l2_reg. La requête qui précède utilise l'espace de recherche par défaut. Vous pouvez également spécifier explicitement l'espace de recherche :

OPTIONS (... l1_reg=hparam_range(0, 20), l2_reg=hparam_candidates([0, 0.1, 1, 10]))

En outre, ces autres options d'entraînement de réglage des hyperparamètres utilisent également leurs valeurs par défaut :

hparam_tuning_algorithm : "VIZIER_DEFAULT"
hparam_tuning_objectives : ["r2_score"]

max_parallel_trials est défini sur 2 pour accélérer le processus de réglage. Avec deux essais exécutés en permanence, l'intégralité du réglage devrait prendre environ autant de temps que l'exécution de 10 tâches d'entraînement en série au lieu de 20. Toutefois, notez que les deux essais simultanés ne peuvent bénéficier que de leurs résultats d'entraînement respectifs.

Exécuter la requête CREATE MODEL

Pour exécuter la requête CREATE MODEL qui permet de créer et d'entraîner votre modèle, procédez comme suit :

Dans la console Cloud, cliquez sur Saisir une nouvelle requête.
Saisissez la requête en SQL standard présentée ci-dessus dans la zone de texte de l'éditeur de requête.
Cliquez sur Exécuter. L'exécution de la requête prend environ 17 minutes.
Suivez la progression du réglage dans les détails de l'exécution sous "Étapes" :

Tâche 4 : Obtenir des informations sur les essais

Pour afficher le descriptif de tous les essais, y compris leurs hyperparamètres, objectifs, états et essais optimaux, utilisez la fonction ML.TRIAL_INFO. Le résultat s'affiche dans la console Cloud après l'exécution du code SQL :

SELECT * FROM ML.TRIAL_INFO(MODEL `bqml_tutorial.hp_taxi_tip_model`)

Vous pouvez exécuter cette requête SQL dès qu'un essai est terminé. Si le réglage est arrêté avant la fin du traitement, tous les essais terminés restent utilisables.

Tâche 5 : Évaluer votre modèle

Après avoir créé votre modèle, affichez les métriques d'évaluation de tous les essais à l'aide de la fonction ML.EVALUATE ou via la console Google Cloud.

Exécutez ML.EVALUATE :

SELECT * FROM ML.EVALUATE(MODEL `bqml_tutorial.hp_taxi_tip_model`)

Pour tous les essais, ce code SQL extrait des métriques d'évaluation calculées avec les données de TEST.

Consultez la section Répartition des données pour connaître la différence entre les objectifs de ML.TRIAL_INFO et les métriques d'évaluation de ML.EVALUATE.

Vous pouvez également évaluer un essai spécifique en fournissant vos propres données. Consultez la section ML.EVALUATE pour en savoir plus.

Vérifier les métriques d'évaluation via la console Google Cloud

Vous pouvez également vérifier les métriques d'évaluation dans l'onglet Évaluation du modèle. Page à onglets "Évaluation", avec 12 lignes de données pour le résumé de tous les essais.

Tâche 6 : Utiliser votre modèle pour prédire les pourboires de trajets en taxi

Maintenant que vous avez évalué votre modèle, l'étape suivante consiste à vous en servir pour prédire le pourboire d'un trajet en taxi.

Utilisez la requête suivante pour prédire le pourboire :

SELECT * FROM ML.PREDICT(MODEL `bqml_tutorial.hp_taxi_tip_model`, ( SELECT * FROM `bqml_tutorial.taxi_tip_input` LIMIT 10))

Détails de la requête

La première instruction SELECT récupère toutes les colonnes, y compris predicted_label. Cette colonne est générée par la fonction ML.PREDICT. Lorsque vous utilisez la fonction ML.PREDICT, le nom de la colonne de sortie du modèle est predicted_label_column_name.

Par défaut, la prédiction est effectuée sur la base de l'essai optimal.

Pour choisir un autre essai, spécifiez le paramètre trial_id.

SELECT * FROM ML.PREDICT(MODEL `bqml_tutorial.hp_taxi_tip_model`, ( SELECT * FROM `bqml_tutorial.taxi_tip_input` LIMIT 10), STRUCT(3 AS trial_id))

Pour en savoir plus sur l'utilisation des fonctions d'inférence de modèles, consultez les informations sur ML.PREDICT.

Tâche 7 : Effectuer un nettoyage

Pour éviter que les ressources utilisées dans le cadre de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer l'ensemble de données

Si vous supprimez votre projet, tous les ensembles de données et toutes les tables qui lui sont associés sont également supprimés. Si vous préférez réutiliser le projet, vous pouvez supprimer l'ensemble de données que vous avez créé dans ce tutoriel :

Si nécessaire, ouvrez la page BigQuery dans la console Cloud.
Dans le panneau Explorateur, cliquez sur Afficher les actions () à côté de votre ensemble de données, puis sur Supprimer.
Dans la boîte de dialogue "Supprimer l'ensemble de données", saisissez delete pour confirmer la suppression de cet ensemble, puis cliquez sur Supprimer.

Félicitations !

Vous savez désormais utiliser BigQuery ML pour :

créer un modèle de régression linéaire à l'aide de l'instruction CREATE MODEL en définissant num_trials sur 20 ;
afficher le descriptif des 20 essais à l'aide de la fonction ML.TRIAL_INFO ;
évaluer le modèle de ML à l'aide de la fonction ML.EVALUATE ;
effectuer des prédictions avec le modèle de ML et la fonction ML.PREDICT.

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur End Lab (Terminer l'atelier). Qwiklabs supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez le nombre d'étoiles correspondant à votre note, saisissez un commentaire, puis cliquez sur Submit (Envoyer).

Le nombre d'étoiles que vous pouvez attribuer à un atelier correspond à votre degré de satisfaction :

1 étoile = très mécontent(e)
2 étoiles = insatisfait(e)
3 étoiles = ni insatisfait(e), ni satisfait(e)
4 étoiles = satisfait(e)
5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez utiliser l'onglet Support (Assistance).

Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.

Utiliser les réglages d'hyperparamètres BigQuery ML pour améliorer les performances du modèle

Utiliser les réglages d'hyperparamètres BigQuery ML pour améliorer les performances du modèle

Présentation

Objectifs

Préparation

Activer l'API BigQuery

Tâche 1 : Créer votre ensemble de données d'entraînement

Tâche 2 : Créer votre table d'entrée d'entraînement

Tâche 3 : Créer votre modèle

Détails de la requête

Exécuter la requête CREATE MODEL

Tâche 4 : Obtenir des informations sur les essais

Tâche 5 : Évaluer votre modèle

Vérifier les métriques d'évaluation via la console Google Cloud

Tâche 6 : Utiliser votre modèle pour prédire les pourboires de trajets en taxi

Détails de la requête

Tâche 7 : Effectuer un nettoyage

Supprimer l'ensemble de données

Félicitations !

Terminer l'atelier

Avant de commencer

Utilisez la navigation privée

Connectez-vous à la console

Utilisez la navigation privée pour effectuer l'atelier