Points de contrôle
Create a Dataproc cluster
/ 50
Submit a job
/ 30
Update a cluster
/ 20
Dataproc : Qwik Start – Console
GSP103
Présentation
Cloud Dataproc est un service cloud rapide, facile à utiliser et entièrement géré permettant d'exécuter de manière plus simple et plus rentable les clusters Apache Spark et Apache Hadoop. Les opérations qui prenaient auparavant des heures ou des jours sont maintenant l'affaire de quelques minutes ou secondes. Créez rapidement des clusters Cloud Dataproc, puis redimensionnez-les à tout moment afin que vos pipelines de données ne saturent pas vos clusters.
Dans cet atelier, vous allez découvrir comment utiliser la console Google Cloud Platform (GCP) pour créer un cluster Google Cloud Dataproc, y exécuter une tâche Apache Spark simple, puis y modifier le nombre de nœuds de calcul.
Configuration et conditions requises
Configuration de Qwiklabs
Avant de cliquer sur le bouton Start Lab (Démarrer l'atelier)
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Start Lab (Démarrer l'atelier), indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique Qwiklabs vous permet de suivre vous-même les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Conditions requises
Pour réaliser cet atelier, vous devez :
- avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome) ;
- disposer de suffisamment de temps pour réaliser l'atelier en une fois.
Remarque : Si vous possédez déjà votre propre compte ou projet Google Cloud, veillez à ne pas l'utiliser pour réaliser cet atelier.
Remarque : Si vous utilisez un appareil Chrome OS, exécutez cet atelier dans une fenêtre de navigation privée.
Console Google Cloud Platform
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, un pop-up s'affiche pour vous permettre de sélectionner un mode de paiement. Sur la gauche, vous trouverez le panneau Détails concernant l'atelier, qui contient les éléments suivants :
- Le bouton Ouvrir la console Google
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google. L'atelier lance les ressources, puis ouvre la page Se connecter dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte. -
Si nécessaire, copiez le nom d'utilisateur inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue Se connecter. Cliquez sur Suivant.
-
Copiez le mot de passe inclus dans le panneau Détails concernant l'atelier et collez-le dans la boîte de dialogue de bienvenue. Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis dans le panneau de gauche. Ne saisissez pas vos identifiants Google Cloud Skills Boost. Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés. -
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas aux essais offerts.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Vérifier que l'API Cloud Dataproc est activée
Pour créer un cluster Dataproc dans GCP, l'API Cloud Dataproc doit être activée. Afin de vérifier que l'API est activée, procédez comme suit :
Cliquez sur le menu de navigation > APIs & Services > Library (API et services > Bibliothèque) :
Saisissez Cloud Dataproc dans la boîte de dialogue Search for APIs & Services (Rechercher des API et des services). La console affiche l'API Cloud Dataproc dans les résultats de la recherche.
Cliquez sur Cloud Dataproc API (API Cloud Dataproc) pour connaître l'état de l'API. Si elle n'est pas déjà activée, cliquez sur le bouton Enable (Activer).
Si l'API est activée, vous pouvez continuer :
Créer un cluster
Dans la console Cloud Platform, sélectionnez le menu de navigation > Dataproc > Clusters, puis cliquez sur Create cluster (Créer un cluster).
Configurez les champs suivants pour votre cluster. Acceptez les valeurs par défaut pour tous les autres champs.
Champ | Valeur |
---|---|
Name (Nom) | example-cluster |
Region (Région) | us-central1 |
Zone | us-central1-a |
Cliquez sur Create (Créer) pour créer le cluster.
Votre nouveau cluster figure ensuite dans la liste des clusters. Sa création peut prendre quelques minutes. Son état indique Provisioning (Provisionnement) jusqu'à ce qu'il soit prêt à être utilisé, puis passe à Running (En cours d'exécution).
Tester la tâche terminée
Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.
Envoyer une tâche
Pour exécuter un exemple de tâche Spark, procédez comme suit :
Cliquez sur Jobs (Tâches) dans le volet de gauche pour passer à l'affichage des tâches de Dataproc, puis cliquez sur Submit job (Envoyer une tâche) :
Définissez les champs suivants pour mettre la tâche à jour. Acceptez les valeurs par défaut pour tous les autres champs.
Champ | Valeur |
---|---|
Cluster | example-cluster |
Job type (Type de tâche) | Spark |
Classe principale ou fichier JAR | org.apache.spark.examples.SparkPi |
Arguments | 1000 (définit le nombre de tâches) |
Jar file (Fichier JAR) | file:///usr/lib/spark/examples/jars/spark-examples.jar |
Cliquez sur Submit (Envoyer).
Votre tâche doit apparaître dans la liste Jobs (Tâches), qui affiche les tâches de votre projet avec son cluster, son type et son état actuel. L'état de la tâche indique Running (En cours d'exécution), puis Succeeded (Réussie) une fois l'opération terminée.
Tester la tâche terminée
Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.
Afficher le résultat de la tâche
Pour voir le résultat de la tâche terminée, procédez comme suit :
Cliquez sur l'ID de la tâche dans la liste Jobs (Tâches).
Cochez la case Line wrapping (Renvoi à la ligne automatique), ou faites défiler la page vers la droite pour afficher la valeur calculée de pi. Votre résultat, une fois la case Line wrapping (Renvoi à la ligne automatique) cochée, doit se présenter comme suit :
Votre tâche est parvenue à calculer une valeur approximative de pi !
Mettre à jour un cluster
Pour modifier le nombre d'instances de nœuds de calcul dans votre cluster, procédez comme suit :
- Sélectionnez Clusters dans le volet de navigation de gauche pour revenir à la vue des clusters Dataproc.
- Cliquez sur example-cluster dans la liste Clusters. Par défaut, la page présente un aperçu de l'utilisation du processeur de votre cluster.
- Cliquez sur Configuration pour afficher les paramètres actuels de votre cluster.
- Cliquez sur Edit (Modifier). Vous pouvez maintenant modifier le nombre de nœuds de calcul.
- Saisissez 4 dans le champ Worker nodes (Nœuds de calcul).
- Cliquez sur Save (Enregistrer).
Votre cluster est maintenant mis à jour. Vérifiez le nombre d'instances de VM dans le cluster :
Tester la tâche terminée
Cliquez sur Check my progress (Vérifier ma progression) pour vérifier la tâche exécutée.
Pour réexécuter la tâche une fois le cluster mis à jour, cliquez sur Jobs (Tâches) dans le volet de gauche, puis sur SUBMIT JOB (ENVOYER UNE TÂCHE).
Définissez les mêmes champs que ceux configurés à la section Submit a job (Envoyer une tâche) :
Champ | Valeur |
---|---|
Cluster | example-cluster |
Job type (Type de tâche) | Spark |
Classe principale ou fichier JAR | org.apache.spark.examples.SparkPi |
Arguments | 1000 (définit le nombre de tâches) |
Jar file (Fichier JAR) | file:///usr/lib/spark/examples/jars/spark-examples.jar |
Cliquez sur Submit (Envoyer).
Tester vos connaissances
Voici quelques questions à choix multiples qui vous permettront de mieux maîtriser les concepts abordés lors de cet atelier. Répondez-y du mieux que vous le pouvez.
Félicitations !
Vous savez maintenant utiliser la console Google Cloud Platform pour créer et mettre à jour un cluster Dataproc, et y envoyer une tâche.
Terminer votre quête
Continuez sur votre lancée avec les quêtes Baseline: Data, ML, AI ou Data Engineering. Une quête est une série d'ateliers associés qui constituent une formation. Si vous terminez cette quête, vous obtiendrez le badge ci-dessus attestant de votre réussite. Vous pouvez rendre publics les badges que vous recevez et ajouter leur lien dans votre CV en ligne ou sur vos comptes de réseaux sociaux. Inscrivez-vous à cette quête pour obtenir immédiatement les crédits associés à cet atelier si vous l'avez suivi. Découvrez les autres quêtes Qwiklabs disponibles.
Étapes suivantes et informations supplémentaires
Cet atelier fait partie d'une série appelée "Qwik Starts". Les ateliers de cette série sont conçus pour vous présenter brièvement les nombreuses fonctionnalités proposées par Google Cloud. Pour trouver le prochain atelier que vous aimeriez suivre, recherchez "Qwik Starts" dans le catalogue.
Google Cloud Training & Certification
...helps you make the most of Google Cloud technologies. Our classes include technical skills and best practices to help you get up to speed quickly and continue your learning journey. We offer fundamental to advanced level training, with on-demand, live, and virtual options to suit your busy schedule. Certifications help you validate and prove your skill and expertise in Google Cloud technologies.
Dernière mise à jour du manuel : 12 mars 2021
Dernier test de l'atelier : 12 mars 2021
Copyright 2020 Google LLC Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.