arrow_back

Analyse exploratoire de données à l'aide de BigQuery et de Colab Enterprise

Accédez à plus de 700 ateliers et cours

Analyse exploratoire de données à l'aide de BigQuery et de Colab Enterprise

Atelier 2 heures universal_currency_alt 1 crédit show_chart Intermédiaire
info Cet atelier peut intégrer des outils d'IA pour vous accompagner dans votre apprentissage.
Accédez à plus de 700 ateliers et cours

Présentation

Dans cet atelier, vous allez découvrir comment analyser un ensemble de données stocké dans BigQuery en exécutant des requêtes avec Colab Enterprise, et apprendre à générer différents types de représentation statistique. L'analyse vous permettra d'identifier des schémas de données.

Objectifs de la formation

  • Créer un notebook Colab Enterprise
  • Se connecter à des ensembles de données BigQuery
  • Effectuer une analyse statistique sur un DataFrame Pandas
  • Créer des tracés Seaborn pour l'analyse exploratoire des données en Python
  • Écrire une requête SQL pour récupérer des champs spécifiques d'un ensemble de données BigQuery
  • Utiliser l'historique des versions pour voir les modifications apportées au code
  • Partager un notebook Colab Enterprise

Vertex AI est une plate-forme unifiée qui permet de créer, de déployer et de gérer des applications de machine learning (ML).

Vertex AI Colab Enterprise est un outil interactif et collaboratif puissant conçu pour vous permettre d'explorer, d'analyser, de transformer et de visualiser des données, ainsi que de créer des modèles de machine learning sur Google Cloud. Cet outil offre les fonctionnalités de sécurité et de conformité nécessaires aux grandes entreprises, et s'intègre à d'autres services Google Cloud tels que Vertex AI et BigQuery pour améliorer le workflow de data science et de machine learning.

BigQuery est un entrepôt de données sans serveur puissant et entièrement géré qui vous permet d'analyser et de gérer facilement de grands ensembles de données. Il utilise un dialecte SQL standard courant, ce qui permet aux analystes et aux data scientists de l'utiliser aisément sans avoir à apprendre un nouveau langage.

Vertex AI propose deux solutions de notebook, Workbench et Colab Enterprise.

Colab

Colab Enterprise

L'espace de travail Colab Enterprise se compose de cinq sections principales (comme illustré dans l'image ci-dessous) : (1) stockage des notebooks, (2) actions de notebook, (3) environnements d'exécution et modèles d'environnements d'exécution, (4) éditeur de notebooks et (5) cellules de code de notebooks. Le stockage des notebooks correspond à l'emplacement où ils sont stockés. Les actions de notebook sont les actions que vous pouvez effectuer sur un notebook. Les environnements d'exécution vous permettent d'exécuter le notebook. L'éditeur de notebooks sert à modifier le notebook. Les cellules de code vous permettent de saisir du code.

Environnement d'exécution Colab

Configurer vos environnements Qwiklabs

Configuration de Qwiklabs

Pour chaque atelier, nous vous attribuons un nouveau projet Google Cloud et un nouvel ensemble de ressources pour une durée déterminée, sans frais.

  1. Connectez-vous à Qwiklabs dans une fenêtre de navigation privée.

  2. Vérifiez le temps imparti pour l'atelier (par exemple : 01:15:00) : vous devez pouvoir le terminer dans ce délai.
    Une fois l'atelier lancé, vous ne pouvez pas le mettre en pause. Si nécessaire, vous pourrez le redémarrer, mais vous devrez tout reprendre depuis le début.

  3. Lorsque vous êtes prêt, cliquez sur Démarrer l'atelier.

  4. Notez vos identifiants pour l'atelier (Nom d'utilisateur et Mot de passe). Ils vous serviront à vous connecter à Google Cloud Console.

  5. Cliquez sur Ouvrir la console Google.

  6. Cliquez sur Utiliser un autre compte, puis copiez-collez les identifiants de cet atelier lorsque vous y êtes invité.
    Si vous utilisez d'autres identifiants, des messages d'erreur s'afficheront ou des frais seront appliqués.

  7. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.

Tâche 1 : Configurer votre environnement

  1. Activer l'API Vertex AI

Accédez à la section Vertex AI de la console Cloud, puis cliquez sur ACTIVER TOUTES LES API RECOMMANDÉES.

Tâche 2 : Créer un notebook Colab Enterprise

  1. Dans la section Vertex AI, faites défiler la page vers le bas jusqu'à "Notebooks". Cliquez sur Colab Enterprise.

select_colab

La page "Bienvenue dans Colab Enterprise" s'affiche.

screate_nb

  1. Dans le menu Région, sélectionnez la région dans laquelle vous souhaitez créer le notebook.

  2. Cliquez sur + CRÉER UN NOTEBOOK dans la section "Actions rapides".

Un nouveau notebook s'ouvre.

get_started

Pour exécuter les cellules, vous devez créer un environnement d'exécution. Pour rappel, les environnements d'exécution sont des instances dérivées de modèles d'exécution qui permettent aux utilisateurs d'exécuter des notebooks Colab. Pour créer un environnement d'exécution, vous devez d'abord créer un modèle d'exécution.

  1. Cliquez sur MODÈLES D'EXÉCUTION. Sur la page "Modèles d'exécution", cliquez sur + NOUVEAU MODÈLE.

Environnement d'exécution Colab

Principes de base de l'environnement d'exécution

Il y a trois étapes. Les étapes 2 et 3 sont facultatives.

Étape 1: Fournissez des informations de base sur l'environnement d'exécution et sélectionnez la région

Environnement d'exécution Colab

Configurer le calcul

Étape 2 : Configurez le calcul (facultatif)

Environnement d'exécution Colab

Mise en réseau et sécurité

Étape 3 : Mise en réseau et sécurité (facultatif)

Environnement d'exécution Colab

Cliquez sur Créer.

Tâche 3 : Écrire du code dans un notebook Colab Enterprise

Dans cet exemple, la cellule de code ci-dessous "Premiers pas" utilise numpy pour générer des données aléatoires et matplotlib pour les visualiser.

  1. Cliquez sur Colab Enterprise, puis sur le notebook que vous avez créé.

  2. Copiez le code ci-dessous et cliquez sur l'icône Exécuter pour exécuter la cellule.

    import numpy as np from matplotlib import pyplot as plt ys = 200 + np.random.randn(100) x = [x for x in range(len(ys))] plt.plot(x, ys, '-') plt.fill_between(x, ys, 195, where=(ys > 195), facecolor='g', alpha=0.6) plt.title("Sample Visualization") plt.show()

run_icon

Lorsque vous exécutez la cellule, un message s'affiche pour indiquer que l'environnement d'exécution est actif et qu'il établit une connexion, comme illustré dans l'image ci-dessous.

Environnement d'exécution Colab

  1. Cliquez sur Ouvrir pour ouvrir le pop-up OAuth, puis sélectionnez votre Nom d'utilisateur et cliquez sur Autoriser.

  2. Examinez maintenant la cellule que vous avez exécutée. Une coche verte doit s'afficher à côté d'elle, ce qui indique que la cellule s'est exécutée correctement.

Sortie Colab

  1. Modifiez à présent le code. Par exemple, remplacez le titre du graphique "Sample Visualization" par "Colab Enterprise". Exécutez ensuite la cellule.

Sortie Colab2

Tâche 4 : Afficher l'historique des révisions

L'une des fonctionnalités les plus importantes du développement logiciel est la possibilité de suivre l'historique des versions.

  1. Accédez à la section de stockage des notebooks. Cliquez sur les trois points à côté du notebook que vous avez créé.

actions

  1. Sélectionnez Historique des révisions (bulle n° 1 sur l'image ci-dessous).

Lorsque l'historique des révisions est sélectionné, vous pouvez voir les modifications côte à côte, avec un code couleur et une date pour distinguer les anciennes versions (en rouge) des nouvelles (en vert) (comme indiqué dans la bulle n° 2). Il existe trois options d'affichage pour l'historique des révisions : la source brute, les différences intégrées ou la sortie source (comme indiqué dans la bulle n° 3).

revision_history

Tâche 5 : Ajouter du code aux cellules

Pour ajouter du code ou du texte à un notebook, il vous suffit de cliquer sur "Code" ou "Texte" dans la barre de menu au-dessus de l'éditeur de notebook.

add_code

Vous allez maintenant ajouter plusieurs blocs de code au notebook. Après avoir copié un bloc de code, exécutez-le pour voir le résultat. Vous remarquerez que certaines cellules ne présentent pas de résultats (par exemple, lorsque vous importez les bibliothèques). Une fois que vous avez terminé, partagez le notebook.

  1. Revenez à la section de stockage des notebooks, puis cliquez sur votre notebook.
  2. Exécutez une nouvelle fois le premier code.
  3. Ajoutez une cellule de code.
  4. Copiez le code ci-dessous dans la nouvelle cellule.

Importer des bibliothèques

import seaborn as sns import pandas as pd import numpy as np from google.cloud import bigquery bq = bigquery.Client()
  1. Cliquez sur l'icône Exécuter pour exécuter la cellule.

Aucun résultat ne doit s'afficher.

Insérez le code ci-dessous comme cellules pour importer les modules nécessaires et initialiser un client BigQuery. Ce dernier permet d'envoyer des messages à l'API BigQuery et d'en recevoir.

Importer le client BigQuery

client = bigquery.Client() query = """SELECT * FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017` LIMIT 1000""" job = client.query(query) df = job.to_dataframe()

Aucun résultat ne s'affiche.

Télécharger une table BigQuery dans un DataFrame Pandas

Dans Google, %%bigquery est une commande magique utilisée dans les notebooks Jupyter et d'autres environnements interactifs pour interagir avec BigQuery. Par conséquent, %%bigquery indique à votre environnement de passer en mode BigQuery : elle prépare l'environnement à accepter et à exécuter des requêtes BigQuery. BigQuery exécute la requête, récupère les données et les présente dans l'environnement de notebook, souvent sous la forme d'un DataFrame Pandas (par exemple, le "df" indiqué dans le code).

%%bigquery df SELECT * FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017`

Résultat affiché : abq_df_output

Afficher les cinq premières lignes du DataFrame Pandas

df.head()

Résultat affiché : adf.headoutput

Obtenir des informations sur le DataFrame Pandas

df.info()

Résultat affiché : adf.infooutput

Obtenir des statistiques sur le DataFrame Pandas

df.describe()

Résultat affiché : df.describeoutput

Représenter une corrélation à l'aide de Seaborn

numeric_df = df.select_dtypes(include=[np.number]) corr_matrix = numeric_df.corr() plt.figure(figsize=(10, 5)) sns.heatmap(corr_matrix, annot=True, vmin=0, vmax=1, cmap='viridis') plt.show()

Résultat affiché : df.corroutput

Écrire une requête SQL pour récupérer des champs spécifiques d'un ensemble de données BigQuery

%%bigquery df2 SELECT signal, status FROM `bigquery-public-data.catalonian_mobile_coverage_eu.mobile_data_2015_2017`

Résultat affiché : abq_df_output

Obtenir les cinq premières lignes des nouveaux champs

df2.head()

Résultat affiché : asql_output

Tâche 6 : Partager le notebook

Partagez ensuite votre notebook.

  1. Quand vous sélectionnez "Partager" en effectuant un clic droit sur le notebook, une fenêtre d'autorisation de partage s'affiche. Vous pouvez y modifier ou supprimer des autorisations, ou sélectionner "Ajouter un compte principal" pour accorder un nouvel accès.

share

  1. Lorsque vous accordez l'accès à une ressource à des comptes principaux, vous ajoutez également des rôles pour spécifier les actions qu'ils peuvent effectuer. Vous pouvez aussi ajouter des conditions pour n'accorder l'accès aux comptes principaux que lorsqu'un critère spécifique est satisfait.

Les comptes principaux sont des utilisateurs, des groupes, des domaines ou des comptes de service. Les rôles sont composés d'ensembles d'autorisations et déterminent ce que le compte principal peut faire avec cette ressource.

Félicitations !

Dans cet atelier, vous avez appris à effectuer les tâches suivantes :

  • Créer un notebook Colab Enterprise
  • Se connecter à des ensembles de données BigQuery
  • Effectuer une analyse statistique sur un DataFrame Pandas
  • Créer des tracés Seaborn pour l'analyse exploratoire des données en Python
  • Écrire une requête SQL pour récupérer des champs spécifiques d'un ensemble de données BigQuery
  • Utiliser l'historique des versions pour voir les modifications apportées au code
  • Partager un notebook Colab Enterprise

Terminer l'atelier

Une fois l'atelier terminé, cliquez sur End Lab (Terminer l'atelier). Qwiklabs supprime les ressources que vous avez utilisées, puis efface le compte.

Si vous le souhaitez, vous pouvez noter l'atelier. Sélectionnez le nombre d'étoiles correspondant à votre note, saisissez un commentaire, puis cliquez sur Submit (Envoyer).

Le nombre d'étoiles que vous pouvez attribuer à un atelier correspond à votre degré de satisfaction :

  • 1 étoile = très mécontent(e)
  • 2 étoiles = insatisfait(e)
  • 3 étoiles = ni insatisfait(e), ni satisfait(e)
  • 4 étoiles = satisfait(e)
  • 5 étoiles = très satisfait(e)

Si vous ne souhaitez pas donner votre avis, vous pouvez fermer la boîte de dialogue.

Pour soumettre des commentaires, suggestions ou corrections, veuillez utiliser l'onglet Support (Assistance).

Dernière mise à jour du manuel : 11 décembre 2024

Dernier test de l'atelier : 11 décembre 2024

Copyright 2024 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms de société et de produit peuvent être des marques des sociétés auxquelles ils sont associés.

Avant de commencer

  1. Les ateliers créent un projet Google Cloud et des ressources pour une durée déterminée.
  2. Les ateliers doivent être effectués dans le délai imparti et ne peuvent pas être mis en pause. Si vous quittez l'atelier, vous devrez le recommencer depuis le début.
  3. En haut à gauche de l'écran, cliquez sur Démarrer l'atelier pour commencer.

Utilisez la navigation privée

  1. Copiez le nom d'utilisateur et le mot de passe fournis pour l'atelier
  2. Cliquez sur Ouvrir la console en navigation privée

Connectez-vous à la console

  1. Connectez-vous à l'aide des identifiants qui vous ont été attribués pour l'atelier. L'utilisation d'autres identifiants peut entraîner des erreurs ou des frais.
  2. Acceptez les conditions d'utilisation et ignorez la page concernant les ressources de récupération des données.
  3. Ne cliquez pas sur Terminer l'atelier, à moins que vous n'ayez terminé l'atelier ou que vous ne vouliez le recommencer, car cela effacera votre travail et supprimera le projet.

Ce contenu n'est pas disponible pour le moment

Nous vous préviendrons par e-mail lorsqu'il sera disponible

Parfait !

Nous vous contacterons par e-mail s'il devient disponible

Un atelier à la fois

Confirmez pour mettre fin à tous les ateliers existants et démarrer celui-ci

Utilisez la navigation privée pour effectuer l'atelier

Ouvrez une fenêtre de navigateur en mode navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.