arrow_back

Dataprep : Qwik Start

Dataprep : Qwik Start

1 heure 1 crédit

Ce laboratoire a été développé avec notre partenaire, Trifacta. Vos informations personnelles peuvent être partagées avec Trifacta, le sponsor du laboratoire, si vous avez choisi de recevoir des mises à jour de produits, des annonces et des offres dans votre profil de compte.

GSP105

Google Cloud – Ateliers adaptés au rythme de chacun

Aperçu

Cloud Dataprep by Trifacta est un service intelligent qui permet d'explorer visuellement des données, de les nettoyer et de les préparer à l'analyse. Cloud Dataprep est une solution sans serveur qui fonctionne à n'importe quelle échelle. Vous n'avez aucune infrastructure à déployer ni à gérer. La préparation des données s'effectue facilement : pas de code à écrire, quelques clics suffisent !

Dans cet atelier, vous allez utiliser Dataprep pour manipuler un ensemble de données. Vous importerez des ensembles, corrigerez les données non concordantes, et transformerez et associerez des données. Si toutes ces notions ne vous sont pas familières, ne craignez rien. Elles n'auront plus de secret pour vous d'ici la fin de cet atelier.

Prérequis

Avant de cliquer sur le bouton Start Lab (Démarrer l'atelier)

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Start Lab (Démarrer l'atelier), indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique Qwiklabs vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.

Conditions requises

Pour réaliser cet atelier, vous devez :

  • avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
  • disposer de suffisamment de temps pour réaliser l'atelier en une fois.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier.

Remarque : Si vous utilisez un appareil Chrome OS, exécutez cet atelier dans une fenêtre de navigation privée.

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Créer un bucket Cloud Storage dans votre projet

  1. Dans la console Cloud Platform, cliquez sur le menu de navigation > Cloud Storage > Browser (Navigateur).

nav_storage.png

  1. Cliquez sur Create bucket (Créer un bucket).

  2. Dans la boîte de dialogue Create a bucket (Créer un bucket), saisissez un nom unique pour le bucket dans le champ Name (Nom). Ignorez les autres étapes pour conserver la valeur par défaut des autres paramètres.

my-bucket.png

  1. Cliquez sur Create (Créer).

Vous avez créé votre bucket. Mémorisez le nom du bucket pour les étapes suivantes.

Tester la tâche terminée

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée. Si le bucket Cloud Storage a correctement été créé, vous recevez une note d'évaluation.

Créer un bucket Cloud Storage

Initialiser Cloud Dataprep

  1. Cliquez sur le menu de navigation > Dataprep.
  2. Cochez la case pour accepter les conditions d'utilisation de Google Dataprep, puis cliquez sur ACCEPT (ACCEPTER).
  3. Cochez la case pour autoriser le partage de vos informations de compte avec Trifacta, puis cliquez sur Agree and Continue (Accepter et continuer).
  4. Cliquez sur Allow (Autoriser) pour que Trifacta puisse accéder aux données du projet.
  5. Cliquez sur votre nom d'utilisateur GCP pour vous connecter à Cloud Dataprep by Trifacta. Votre nom d'utilisateur GCP est indiqué dans le champ Username (Nom d'utilisateur) dans le panneau de gauche de votre atelier.
  6. Cliquez sur Allow (Autoriser) pour permettre à Cloud Dataprep d'accéder au compte qui vous a été attribué pour l'atelier GCP.
  7. Cochez la case pour valider les conditions d'utilisation de Trifacta, puis cliquez sur Accept (Accepter).
  8. Sur l'écran de configuration initiale, cliquez sur Continue (Continuer) pour créer l'emplacement de stockage par défaut.

937d6677b5e75d9d.png

Dataprep s'ouvre dans un nouvel onglet du navigateur.

Cliquez sur l'icône Dataprep dans le coin supérieur gauche pour accéder à l'écran d'accueil.

Tester la tâche terminée

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée. Si vous avez réussi à initialiser Cloud Dataprep avec l'emplacement de stockage par défaut, vous recevez une note d'évaluation.

Initialiser Cloud Dataprep

Créer un flux

Cloud Dataprep utilise un espace de travail flow pour accéder aux ensembles de données et les manipuler.

  1. Cliquez sur l'icône Flows, puis sur le bouton Create, puis sélectionnez Blank Flow :

dataprep_create_flow.png

  1. Cliquez sur Untitled Flow, puis nommez et décrivez le flux. Comme nous utilisons des données de la Commission électorale fédérale des États-Unis de 2016 dans le cadre de cet atelier, nommez le flux "FEC-2016" (pour Federal Elections Commission) et pour sa description, indiquez "Commission électorale fédérale des États-Unis de 2016".

flow-details.png

  1. Cliquez sur OK.

La page de flux FEC-2016 s'ouvre.

Importer des ensembles de données

Dans cette section, vous allez importer et ajouter des données dans le flux FEC-2016.

  1. Cliquez sur Add Datasets, puis sélectionnez le lien Import Datasets.

import-dataset.png

  1. Dans le volet du menu à gauche, sélectionnez Cloud Storage pour importer des ensembles de données à partir de Cloud Storage, puis cliquez sur le crayon pour modifier le chemin du fichier.

dataprep_choose_file1.png

  1. Dans la zone de texte Choose a file or folder (Sélectionner un fichier ou un dossier), saisissez gs://spls/gsp105, puis cliquez sur Go (OK).

Vous devez agrandir la fenêtre du navigateur pour afficher les boutons Go (OK) et Cancel (Annuler).

  1. Cliquez sur us-fec/.

  2. Cliquez sur l'icône + à côté de cn-2016.txt pour créer un ensemble de données affiché dans le volet de droite. Cliquez sur le titre dans l'ensemble de données et remplacez-le par "Candidate Master 2016".

  3. De même, ajoutez l'ensemble de données itcont-2016.txt et renommez-le "Campaign Contributions 2016".

  4. Lorsque les deux ensembles de données figurent dans le volet de droite, cliquez sur Import & Add to Flow (Importer et ajouter au flux).

4e126e9b671a7722.png

Les deux ensembles de données sont affichés sous forme de flux.

Préparer le fichier "Candidate"

  1. L'ensemble de données "Candidate Master 2016" est sélectionné par défaut. Dans le volet de droite, cliquez sur Edit Recipe.

dataprep-recipe.png

La page "Candidate Master 2016 Transformer" s'ouvre en mode Grille.

transformer-page.png

La page "Transformer" vous permet de créer votre recette de transformation et d'afficher les résultats appliqués à cet exemple. Lorsque vous êtes satisfait du résultat affiché, exécutez la tâche associée à votre ensemble de données.

Chacun des en-têtes de colonne comporte un nom et une valeur indiquant le type de données. Les types de données s'affichent lorsque vous cliquez sur l'icône représentant un drapeau :

datatypes.png

De plus, lorsque vous cliquez sur l'icône représentant un drapeau, un panneau Details (Détails) s'ouvre sur la droite :

details_panel.png

Pour fermer le panneau "Details" (Détails), cliquez sur X en haut à droite du panneau.

Dans les étapes suivantes, vous allez explorer les données en mode Grille et appliquer des étapes de transformation à votre recette.

  1. La colonne "Column5" comporte des données de la période comprise entre 1990 et 2064. Élargissez cette colonne (de la même manière que dans une feuille de calcul) pour séparer chaque année. Cliquez sur le plus haut segment, représentant l'année 2016, pour le sélectionner.

dataprep-column5.png

Une étape de sélection de ces valeurs est alors créée.

  1. Dans le panneau Suggestions à droite, accédez à la section Keep rows (Conserver les lignes), puis cliquez sur Add (Ajouter) pour ajouter cette étape à votre recette.

recipe-step.png

Le panneau "Recipe" (Recette) situé à droite contient maintenant l'étape suivante :

Keep rows where(DATE(2016, 1, 1) <= column5) && (column5 < DATE(2018, 1, 1))

  1. Passez la souris sur la partie rouge (non concordante) de l'en-tête de la colonne "Column6 (State)" pour sélectionner les lignes non concordantes.

3cdb3803ef49636b.png

Faites défiler la page vers le bas pour rechercher les valeurs non concordantes et notez que pour la plupart de ces enregistrements, la valeur "P" est indiquée dans la colonne "Column7" et "US" dans la colonne "Column6". Une non-concordance est identifiée parce que column6 est marquée comme une colonne "State" (colonne d'État, indiqué par l'icône représentant un drapeau), mais elle comporte des valeurs qui ne font pas référence à des États (comme "US").

  1. Pour corriger la non-concordance, cliquez sur X en haut du panneau "Suggestions" pour annuler la transformation, puis cliquez sur l'icône représentant un drapeau dans "Column6" et transformez-la en colonne "String" (Chaîne).

84cfd42fcab33662.png

La non-concordance n'existe plus et le marqueur de colonne est devenu vert.

  1. Filtrez les données pour n'afficher que les candidats à la présidentielle, correspondant aux enregistrements pour lesquels la valeur "P" figure dans la colonne "Column7". Dans l'histogramme de Column7, passez la souris sur les deux segments pour repérer celui qui est "H" et celui qui est "P". Cliquez sur le segment "P".

328626b128b93f1.png

  1. Dans le panneau "Suggestions" à droite, cliquez sur Add (Ajouter) pour ajouter l'étape à la recette.

Dataprep_row_7

Associer le fichier "Contributions"

Sur la page "Join" (Joindre), vous pouvez ajouter votre ensemble de données actuel à un autre ensemble de données ou à une autre recette en fonction des informations communes aux deux ensembles.

Avant de joindre le fichier "Contributions" au fichier "Candidates", supprimez les données du fichier "Contributions".

  1. Cliquez sur FEC-2016 (le sélectionneur d'ensembles de données) en haut de page en mode Grille.

dataprep_fec2016.png

  1. Sélectionnez l'ensemble Campaign Contributions affiché en grisé.

  2. Dans le volet de droite, cliquez sur Add > Recipe, puis cliquez sur Edit Recipe (Modifier la recette).

  3. Cliquez sur l'icône recipe (recette) en haut à droite sur la page, puis cliquez sur Add New Step (Ajouter une étape).

dataprep_2nd_recipe.png

Supprimez les délimiteurs superflus de l'ensemble de données.

  1. Insérez la commande en langage Wrangle suivante dans le champ de recherche :

replacepatterns col: * with: '' on: `{start}"|"{end}` global: true

Le créateur de transformation analyse la commande Wrangle et renseigne les champs de transformation "Find" (Rechercher) et "Replace" (Remplacer).

recipe.png

  1. Cliquez sur Add (Ajouter) pour ajouter la transformation à la recette.

  2. Ajoutez une autre étape à la recette. Cliquez sur New Step (Nouvelle étape), puis saisissez "Join" dans le champ de recherche.

Dataprep_join

  1. Cliquez sur Join datasets (Joindre les ensembles de données) pour ouvrir la page "Join" (Joindre).

  2. Cliquez sur "Candidate Master 2016" pour associer cet ensemble à l'ensemble "Campaign Contributions 2016-2", puis cliquez sur Accept (Accepter) en bas à droite.

dataprep-candidate-master.png

  1. Passez le curseur sur la section "Join Keys" (Clés de jointure), puis cliquez sur le crayon (icône de modification).

edit_join.png

Dataprep en déduit des clés communes. Dataprep vous suggère un grand nombre de valeurs communes en tant que clés de jointure.

  1. Dans le panneau "Add Key" (Ajouter une clé), accédez à la section "Suggested join keys" (Clés de jointure proposées) et cliquez sur column2 = column11.

join_conditions.png

  1. Cliquez sur Save and Continue (Enregistrer et continuer).

Vous pouvez examiner les colonnes 2 et 11 qui s'affichent.

  1. Cliquez sur Next (Suivant), puis cochez la case à gauche de l'intitulé "Columns" (Colonnes) pour ajouter toutes les colonnes des deux ensembles de données au nouvel ensemble de données joint.

type_checkbox.png

  1. Cliquez sur Review (Examiner), puis sur Add to Recipe (Ajouter à la recette) pour revenir au mode Grille.

Résumé des données

Vous allez générer un résumé de ces données. Pour cela, vous allez agréger les contributions de la colonne 16, en faire la moyenne, puis les compter. Ensuite, vous allez regrouper les candidats en fonction de leur ID, leur nom et leur appartenance à un parti dans les colonnes 2, 24 et 8 respectivement.

  1. En haut du panneau "Recipe" (Recette) à gauche, cliquez sur New Step (Nouvelle étape), puis saisissez la formule suivante dans la zone de recherche Transformation pour prévisualiser les données agrégées.

pivot value:sum(column16),average(column16),countif(column16 > 0) group: column2,column24,column8

Un échantillon initial des données jointes et agrégées s'affiche, représentant un tableau récapitulatif des candidats à la présidentielle américaine, ainsi que les métriques associées à leur contribution pour la campagne 2016.

6f4fba772aa0a141.png

  1. Cliquez sur Add (Ajouter) pour ouvrir un tableau récapitulatif des principaux candidats à l'élection présidentielle américaine, ainsi que les métriques associées à leur contribution pour la campagne 2016.

Renommer les colonnes

Vous pouvez faciliter l'interprétation des données en renommant les colonnes. Ajoutez à la recette chacune des étapes de changement de nom et d'arrondissement des nombres, une par une. Pour ce faire, cliquez sur New Step (Nouvelle étape), puis saisissez les lignes suivantes :

rename type: manual mapping: [column24,'Candidate_Name'], [column2,'Candidate_ID'],[column8,'Party_Affiliation'], [sum_column16,'Total_Contribution_Sum'], [average_column16,'Average_Contribution_Sum'], [countif,'Number_of_Contributions']

Ensuite, cliquez sur Add (Ajouter).

Ajoutez cette dernière étape New Step (Nouvelle étape) pour arrondir le montant "Average Contribution" (Contribution moyenne) :

set col: Average_Contribution_Sum value: round(Average_Contribution_Sum)

Ensuite, cliquez sur Add (Ajouter).

Vos résultats se présentent comme suit :

2b3dc976f95952a5.png

Félicitations !

Vous avez ajouté un ensemble de données à l'aide de Dataprep, et vous avez créé des recettes pour superposer les données et générer des résultats significatifs.

Étapes suivantes et informations supplémentaires

Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous présenter brièvement les nombreuses fonctionnalités proposées par Google Cloud. Pour suivre un autre atelier, recherchez "Qwik Starts" dans le catalogue.

Google Cloud Training & Certification

...helps you make the most of Google Cloud technologies. Our classes include technical skills and best practices to help you get up to speed quickly and continue your learning journey. We offer fundamental to advanced level training, with on-demand, live, and virtual options to suit your busy schedule. Certifications help you validate and prove your skill and expertise in Google Cloud technologies.

Dernière mise à jour du manuel : 8 septembre 2021
Dernier test de l'atelier : 8 septembre 2021

Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.