arrow_back

Dataproc : Qwik Start – Console

Dataproc : Qwik Start – Console

30 minutes 1 crédit

GSP103

Google Cloud – Ateliers adaptés au rythme de chacun

Présentation

Cloud Dataproc est un service cloud rapide, facile à utiliser et entièrement géré permettant d'exécuter de manière plus simple et plus rentable les clusters Apache Spark et Apache Hadoop. Les opérations qui prenaient auparavant des heures ou des jours sont maintenant l'affaire de quelques minutes ou secondes. Créez rapidement des clusters Cloud Dataproc, puis redimensionnez-les à tout moment afin que vos pipelines de données ne saturent pas vos clusters.

Dans cet atelier, vous allez découvrir comment utiliser la console Google Cloud Platform (GCP) pour créer un cluster Google Cloud Dataproc, y exécuter une tâche Apache Spark simple, puis y modifier le nombre de nœuds de calcul.

Configuration et conditions requises

Configuration de Qwiklabs

Avant de cliquer sur le bouton Start Lab (Démarrer l'atelier)

Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Start Lab (Démarrer l'atelier), indique combien de temps les ressources Google Cloud resteront accessibles.

Cet atelier pratique Qwiklabs vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.

Conditions requises

Pour réaliser cet atelier, vous devez :

  • avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
  • disposer de suffisamment de temps pour réaliser l'atelier en une fois.

Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier.

Remarque : Si vous utilisez un appareil Chrome OS, exécutez cet atelier dans une fenêtre de navigation privée.

Console Google Cloud Platform

Démarrer l'atelier et se connecter à la console Google Cloud

  1. Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :

    • Le bouton Ouvrir la console Google
    • Le temps restant
    • Les identifiants temporaires que vous devez utiliser pour cet atelier
    • Des informations complémentaires vous permettant d'effectuer l'atelier
  2. Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.

    Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.

    Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
  3. Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.

  4. Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.

    Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
  5. Accédez aux pages suivantes :

    • Acceptez les conditions d'utilisation.
    • N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
    • Ne vous inscrivez pas aux essais offerts.

Après quelques instants, la console Cloud s'ouvre dans cet onglet.

Remarque : Vous pouvez afficher le menu qui contient la liste des produits et services Google Cloud en cliquant sur le menu de navigation en haut à gauche. Icône du menu de navigation

Vérifier que l'API Cloud Dataproc est activée

Pour créer un cluster Dataproc dans GCP, l'API Cloud Dataproc doit être activée. Afin de vérifier que l'API est activée, procédez comme suit :

Cliquez sur le menu de navigation > APIs & Services > Library (API et services > Bibliothèque) :

nav_to_library.png

Saisissez Cloud Dataproc dans la boîte de dialogue Search for APIs & Services (Rechercher des API et des services). La console affiche l'API Cloud Dataproc dans les résultats de la recherche.

Cliquez sur Cloud Dataproc API (API Cloud Dataproc) pour connaître l'état de l'API. Si elle n'est pas déjà activée, cliquez sur le bouton Enable (Activer).

Si l'API est activée, vous pouvez continuer :

api.png

Créer un cluster

Dans la console Cloud Platform, sélectionnez le menu de navigation > Dataproc > Clusters, puis cliquez sur Create cluster (Créer un cluster).

Configurez les champs suivants pour votre cluster. Acceptez les valeurs par défaut pour tous les autres champs.

Champ Valeur
Name (Nom) example-cluster
Region (Région) us-central1
Zone us-central1-a

Cluster.png

Cliquez sur Create (Créer) pour créer le cluster.

Votre nouveau cluster figure ensuite dans la liste des clusters. Sa création peut prendre quelques minutes. Son état indique Provisioning (Provisionnement) jusqu'à ce qu'il soit prêt à être utilisé, puis passe à Running (En cours d'exécution).

Tester la tâche terminée

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.

Créer un cluster Dataproc

Envoyer une tâche

Pour exécuter un exemple de tâche Spark, procédez comme suit :

Cliquez sur Jobs (Tâches) dans le volet de gauche pour passer à l'affichage des tâches de Dataproc, puis cliquez sur Submit job (Envoyer une tâche) :

fe78cb5282f3f914.png

Définissez les champs suivants pour mettre la tâche à jour. Acceptez les valeurs par défaut pour tous les autres champs.

Champ Valeur
Cluster example-cluster
Job type (Type de tâche) Spark
Classe principale ou fichier JAR org.apache.spark.examples.SparkPi
Arguments 1000 (définit le nombre de tâches)
Jar file (Fichier JAR) file:///usr/lib/spark/examples/jars/spark-examples.jar

66a806709011b870.png

Cliquez sur Submit (Envoyer).

Votre tâche doit apparaître dans la liste Jobs (Tâches), qui affiche les tâches de votre projet avec son cluster, son type et son état actuel. L'état de la tâche indique Running (En cours d'exécution), puis Succeeded (Réussie) une fois l'opération terminée.

job-status.png

Tester la tâche terminée

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.

Envoyer une tâche

Afficher le résultat de la tâche

Pour voir le résultat de la tâche terminée, procédez comme suit :

Cliquez sur l'ID de la tâche dans la liste Jobs (Tâches).

Cochez la case Line wrapping (Renvoi à la ligne automatique), ou faites défiler la page vers la droite pour afficher la valeur calculée de pi. Votre résultat, une fois la case Line wrapping (Renvoi à la ligne automatique) cochée, doit se présenter comme suit :

output.png

Votre tâche est parvenue à calculer une valeur approximative de pi !

Mettre à jour un cluster

Pour modifier le nombre d'instances de nœuds de calcul dans votre cluster, procédez comme suit :

  1. Sélectionnez Clusters dans le volet de navigation de gauche pour revenir à la vue des clusters Dataproc.
  2. Cliquez sur example-cluster dans la liste Clusters. Par défaut, la page présente un aperçu de l'utilisation du processeur de votre cluster.
  3. Cliquez sur Configuration pour afficher les paramètres actuels de votre cluster.

Configuration-details.png

  1. Cliquez sur Edit (Modifier). Vous pouvez maintenant modifier le nombre de nœuds de calcul.
  2. Saisissez 4 dans le champ Worker nodes (Nœuds de calcul).
  3. Cliquez sur Save (Enregistrer).

cluster-update.png

Votre cluster est maintenant mis à jour. Vérifiez le nombre d'instances de VM dans le cluster :

VM-Instances.png

Tester la tâche terminée

Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.

Mettre à jour un cluster

Pour réexécuter la tâche une fois le cluster mis à jour, cliquez sur Jobs (Tâches) dans le volet de gauche, puis sur SUBMIT JOB (ENVOYER UNE TÂCHE).

Définissez les mêmes champs que ceux configurés à la section Submit a job (Envoyer une tâche) :

Champ Valeur
Cluster example-cluster
Job type (Type de tâche) Spark
Classe principale ou fichier JAR org.apache.spark.examples.SparkPi
Arguments 1000 (définit le nombre de tâches)
Jar file (Fichier JAR) file:///usr/lib/spark/examples/jars/spark-examples.jar

66a806709011b870.png

Cliquez sur Submit (Envoyer).

Tester vos connaissances

Voici quelques questions à choix multiples qui vous permettront de mieux maîtriser les concepts abordés lors de cet atelier. Répondez-y du mieux que vous le pouvez.

Félicitations !

Vous savez maintenant utiliser la console Google Cloud Platform pour créer et mettre à jour un cluster Dataproc, et y envoyer une tâche.

c5c398f6ade6aa06.png 304e2d6238466ca2.png

Terminer votre quête

Continuez sur votre lancée avec les quêtes Baseline: Data, ML, AI ou Data Engineering. Une quête est une série d'ateliers associés qui constituent une formation. Si vous terminez cette quête, vous obtiendrez le badge ci-dessus attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête pour obtenir immédiatement les crédits associés à cet atelier si vous l'avez suivi. Découvrez les autres quêtes Qwiklabs disponibles.

Étapes suivantes et informations supplémentaires

Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous présenter brièvement les nombreuses fonctionnalités proposées par Google Cloud. Pour trouver le prochain atelier que vous aimeriez suivre, recherchez "Qwik Starts" dans le catalogue.

Google Cloud Training & Certification

...helps you make the most of Google Cloud technologies. Our classes include technical skills and best practices to help you get up to speed quickly and continue your learning journey. We offer fundamental to advanced level training, with on-demand, live, and virtual options to suit your busy schedule. Certifications help you validate and prove your skill and expertise in Google Cloud technologies.

Dernière mise à jour du manuel : 12 mars 2021
Dernier test de l'atelier : 12 mars 2021

Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.