GSP1144

Présentation
Dataplex est une data fabric intelligente qui permet aux organisations de découvrir, gérer, surveiller et gouverner leurs données de façon centralisée sur des lacs, des entrepôts et des magasins de données afin d'optimiser les analyses à grande échelle. Vous pouvez utiliser Dataplex pour développer une architecture de maillage de données, c'est-à-dire une approche technique destinée aux entreprises qui décentralise la propriété des données parmi les propriétaires de données du domaine.
Dataplex gère les données d'une manière qui ne nécessite pas de les déplacer ni de les dupliquer. Lorsque vous ajoutez des éléments de données, Dataplex collecte les métadonnées des données structurées et non structurées, puis les enregistre dans un metastore sécurisé et unifié. Grâce à des services Google Cloud tels que Data Catalog et BigQuery, vous pouvez ensuite évaluer ces données et métadonnées.
Dans cet atelier, vous allez apprendre à développer votre propre maillage de données en créant et en supprimant des lacs, des zones et des éléments dans Dataplex à l'aide de la ligne de commande.
Objectifs de l'atelier
- Activer l'API Dataplex
- Créer un lac
- Ajouter une zone à votre lac
- Associer et dissocier des éléments
- Supprimer des zones et des lacs
Préparation
Avant de cliquer sur le bouton "Démarrer l'atelier"
Lisez ces instructions. Les ateliers sont minutés, et vous ne pouvez pas les mettre en pause. Le minuteur, qui démarre lorsque vous cliquez sur Démarrer l'atelier, indique combien de temps les ressources Google Cloud resteront accessibles.
Cet atelier pratique vous permet de suivre les activités dans un véritable environnement cloud, et non dans un environnement de simulation ou de démonstration. Des identifiants temporaires vous sont fournis pour vous permettre de vous connecter à Google Cloud le temps de l'atelier.
Pour réaliser cet atelier :
- Vous devez avoir accès à un navigateur Internet standard (nous vous recommandons d'utiliser Chrome).
Remarque : Ouvrez une fenêtre de navigateur en mode incognito (recommandé) ou de navigation privée pour effectuer cet atelier. Vous éviterez ainsi les conflits entre votre compte personnel et le compte temporaire de participant, qui pourraient entraîner des frais supplémentaires facturés sur votre compte personnel.
- Vous disposez d'un temps limité. N'oubliez pas qu'une fois l'atelier commencé, vous ne pouvez pas le mettre en pause.
Remarque : Utilisez uniquement le compte de participant pour cet atelier. Si vous utilisez un autre compte Google Cloud, des frais peuvent être facturés à ce compte.
Démarrer l'atelier et se connecter à la console Google Cloud
-
Cliquez sur le bouton Démarrer l'atelier. Si l'atelier est payant, une boîte de dialogue s'affiche pour vous permettre de sélectionner un mode de paiement.
Sur la gauche, vous trouverez le panneau "Détails concernant l'atelier", qui contient les éléments suivants :
- Le bouton "Ouvrir la console Google Cloud"
- Le temps restant
- Les identifiants temporaires que vous devez utiliser pour cet atelier
- Des informations complémentaires vous permettant d'effectuer l'atelier
-
Cliquez sur Ouvrir la console Google Cloud (ou effectuez un clic droit et sélectionnez Ouvrir le lien dans la fenêtre de navigation privée si vous utilisez le navigateur Chrome).
L'atelier lance les ressources, puis ouvre la page "Se connecter" dans un nouvel onglet.
Conseil : Réorganisez les onglets dans des fenêtres distinctes, placées côte à côte.
Remarque : Si la boîte de dialogue Sélectionner un compte s'affiche, cliquez sur Utiliser un autre compte.
-
Si nécessaire, copiez le nom d'utilisateur ci-dessous et collez-le dans la boîte de dialogue Se connecter.
{{{user_0.username | "Username"}}}
Vous trouverez également le nom d'utilisateur dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
-
Copiez le mot de passe ci-dessous et collez-le dans la boîte de dialogue Bienvenue.
{{{user_0.password | "Password"}}}
Vous trouverez également le mot de passe dans le panneau "Détails concernant l'atelier".
-
Cliquez sur Suivant.
Important : Vous devez utiliser les identifiants fournis pour l'atelier. Ne saisissez pas ceux de votre compte Google Cloud.
Remarque : Si vous utilisez votre propre compte Google Cloud pour cet atelier, des frais supplémentaires peuvent vous être facturés.
-
Accédez aux pages suivantes :
- Acceptez les conditions d'utilisation.
- N'ajoutez pas d'options de récupération ni d'authentification à deux facteurs (ce compte est temporaire).
- Ne vous inscrivez pas à des essais sans frais.
Après quelques instants, la console Cloud s'ouvre dans cet onglet.
Remarque : Pour accéder aux produits et services Google Cloud, cliquez sur le menu de navigation ou saisissez le nom du service ou du produit dans le champ Recherche.
Activer Cloud Shell
Cloud Shell est une machine virtuelle qui contient de nombreux outils pour les développeurs. Elle comprend un répertoire d'accueil persistant de 5 Go et s'exécute sur Google Cloud. Cloud Shell vous permet d'accéder via une ligne de commande à vos ressources Google Cloud.
-
Cliquez sur Activer Cloud Shell
en haut de la console Google Cloud.
-
Passez les fenêtres suivantes :
- Accédez à la fenêtre d'informations de Cloud Shell.
- Autorisez Cloud Shell à utiliser vos identifiants pour effectuer des appels d'API Google Cloud.
Une fois connecté, vous êtes en principe authentifié et le projet est défini sur votre ID_PROJET : . Le résultat contient une ligne qui déclare l'ID_PROJET pour cette session :
Your Cloud Platform project in this session is set to {{{project_0.project_id | "PROJECT_ID"}}}
gcloud
est l'outil de ligne de commande pour Google Cloud. Il est préinstallé sur Cloud Shell et permet la complétion par tabulation.
- (Facultatif) Vous pouvez lister les noms des comptes actifs à l'aide de cette commande :
gcloud auth list
- Cliquez sur Autoriser.
Résultat :
ACTIVE: *
ACCOUNT: {{{user_0.username | "ACCOUNT"}}}
To set the active account, run:
$ gcloud config set account `ACCOUNT`
- (Facultatif) Vous pouvez lister les ID de projet à l'aide de cette commande :
gcloud config list project
Résultat :
[core]
project = {{{project_0.project_id | "PROJECT_ID"}}}
Remarque : Pour consulter la documentation complète sur gcloud
, dans Google Cloud, accédez au guide de présentation de la gcloud CLI.
Activer l'API Dataplex et définir des variables
- Dans Cloud Shell, exécutez la commande suivante pour activer l'API Dataplex.
gcloud services enable \
dataplex.googleapis.com
- Exécutez la commande suivante pour créer une variable pour l'ID du projet :
export PROJECT_ID=$(gcloud config get-value project)
- Exécutez la commande suivante afin de créer une variable pour la région :
export REGION={{{project_0.default_region | "filled in at lab start"}}}
gcloud config set compute/region $REGION
Tâche 1 : Créer un lac
Dans Dataplex, un lac est le domaine d'organisation le plus élevé qui représente une zone de données ou une unité d'entreprise spécifique. Par exemple, vous pouvez créer un lac pour chaque service ou domaine de données de votre organisation. Vous aurez ainsi la possibilité d'organiser et de fournir des données à des groupes d'utilisateurs particuliers.
Dans cette tâche, vous allez utiliser la ligne de commande pour créer un lac afin de commencer à développer un maillage de données.
- Dans Cloud Shell, exécutez la commande suivante pour créer un lac nommé Ecommerce :
gcloud dataplex lakes create ecommerce \
--location=$REGION \
--display-name="Ecommerce" \
--description="Ecommerce Domain"
La création d'un lac peut prendre jusqu'à trois minutes.
Si vous recevez l'erreur Status code: 403. Permission 'dataplex.lakes.create' denied
, attendez quelques minutes et réessayez. L'octroi des autorisations peut prendre plus de temps après l'activation de l'API Dataplex dans la section "Configuration" précédente.
Le résultat final doit ressembler à ce qui suit :
Created [ecommerce] Lake created in [projects/$PROJECT_ID/locations/$REGION].
Créer un lac Dataplex
Tâche 2 : Ajouter une zone à votre lac
Après avoir créé un lac, vous pouvez y ajouter des zones. Il s'agit de sous-domaines vous permettant de classer vos données. Par exemple, vous pouvez classer vos données par étape, utilisation ou restrictions.
Il existe deux types de zones :
- Les zones brutes contiennent des données dans des formats bruts (par exemple, les fichiers dans des buckets Cloud Storage) et ne sont pas soumises à une vérification stricte du type.
- Les zones organisées contiennent des données nettoyées, formatées et prêtes à être analysées, comme les ensembles de données BigQuery.
Dans cette tâche, vous allez utiliser la ligne de commande pour créer une zone organisée pour travailler avec les ensembles de données BigQuery.
- Dans Cloud Shell, exécutez la commande suivante pour créer une zone organisée nommée Orders Curated Zone avec la découverte de métadonnées activée :
gcloud dataplex zones create orders-curated-zone \
--location=$REGION \
--lake=ecommerce \
--display-name="Orders Curated Zone" \
--resource-location-type=SINGLE_REGION \
--type=CURATED \
--discovery-enabled \
--discovery-schedule="0 * * * *"
La création de la zone peut prendre jusqu'à deux minutes.
Le résultat final doit ressembler à ce qui suit :
Created [orders-curated-zone] Zone created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce].
Ajouter une zone à votre lac
Tâche 3 : Associer un élément à une zone
Les données stockées dans des buckets Cloud Storage ou des ensembles de données BigQuery peuvent être associées en tant qu'éléments aux zones d'un lac Dataplex.
Dans cette tâche, vous allez utiliser la ligne de commande pour créer un ensemble de données BigQuery, puis l'associer à la zone créée précédemment.
Créer un ensemble de données BigQuery
- Dans Cloud Shell, exécutez la commande suivante pour créer un ensemble de données BigQuery nommé orders :
bq mk --location=$REGION --dataset orders
Vous pouvez associer cet ensemble de données à la zone maintenant, tant qu'il ne contient aucune table ni donnée. Les tables créées et les données chargées ensuite seront automatiquement intégrées à la zone.
Le résultat final doit ressembler à ce qui suit :
Dataset '$PROJECT_ID:orders' successfully created.
Associer l'ensemble de données BigQuery à la zone
- Dans Cloud Shell, exécutez la commande suivante pour associer l'ensemble de données BigQuery à la zone en tant qu'élément nommé Orders Curated Data avec la découverte des métadonnées activée :
gcloud dataplex assets create orders-curated-dataset \
--location=$REGION \
--lake=ecommerce \
--zone=orders-curated-zone \
--display-name="Orders Curated Dataset" \
--resource-type=BIGQUERY_DATASET \
--resource-name=projects/$PROJECT_ID/datasets/orders \
--discovery-enabled
La création de l'élément peut prendre jusqu'à deux minutes.
Le résultat final doit ressembler à ce qui suit :
Created [orders-curated-dataset] Asset created in [projects/$PROJECT_ID/locations/$REGION/lakes/ecommerce/zones/orders-curated-zone].
Associer un élément à une zone
Tâche 4 : Supprimer des éléments, des zones et des lacs
Pour supprimer un lac de données, vous devez d'abord dissocier les éléments, puis supprimer les zones.
Dans cette tâche, vous allez utiliser la ligne de commande pour dissocier l'élément de la zone, supprimer la zone, puis supprimer le lac.
Dissocier un élément
- Dans Cloud Shell, exécutez la commande suivante pour dissocier l'ensemble de données BigQuery de la zone :
gcloud dataplex assets delete orders-curated-dataset --location=$REGION --zone=orders-curated-zone --lake=ecommerce
Si vous êtes invité à confirmer la commande, saisissez Y
.
Cette action supprime les données sous-jacentes dans l'ensemble de données BigQuery. Elle empêche seulement d'accéder à l'ensemble de données BigQuery ou de le découvrir à l'aide du lac de données dans Dataplex.
Le résultat final doit ressembler à ce qui suit :
Deleted asset [orders-curated-dataset].
Supprimer une zone
- Dans Cloud Shell, exécutez la commande suivante pour supprimer la zone :
gcloud dataplex zones delete orders-curated-zone --location=$REGION --lake=ecommerce
Si vous êtes invité à confirmer la commande, saisissez Y
.
Le résultat final doit ressembler à ce qui suit :
Deleted zone [orders-curated-zone].
Supprimer le lac
- Dans Cloud Shell, exécutez la commande suivante pour supprimer le lac :
gcloud dataplex lakes delete ecommerce --location=$REGION
Si vous êtes invité à confirmer la commande, saisissez Y
.
Le résultat final doit ressembler à ce qui suit :
Deleted lake [ecommerce].
Supprimer les éléments, la zone et le lac Dataplex
Félicitations !
Vous avez utilisé la ligne de commande pour créer et supprimer des lacs, des zones et des éléments dans Dataplex.
Formations et certifications Google Cloud
Les formations et certifications Google Cloud vous aident à tirer pleinement parti des technologies Google Cloud. Nos cours portent sur les compétences techniques et les bonnes pratiques à suivre pour être rapidement opérationnel et poursuivre votre apprentissage. Nous proposons des formations pour tous les niveaux, à la demande, en salle et à distance, pour nous adapter aux emplois du temps de chacun. Les certifications vous permettent de valider et de démontrer vos compétences et votre expérience en matière de technologies Google Cloud.
Dernière mise à jour du manuel : 23 avril 2025
Dernier test de l'atelier : 23 avril 2025
Copyright 2025 Google LLC. Tous droits réservés. Google et le logo Google sont des marques de Google LLC. Tous les autres noms d'entreprises et de produits peuvent être des marques des entreprises auxquelles ils sont associés.