Dans le dernier volet de la série de cours sur Dataflow, nous allons présenter les composants du modèle opérationnel de Dataflow. Nous examinerons les outils et techniques permettant de résoudre les problèmes et d'optimiser les performances des pipelines. Nous passerons ensuite en revue les bonnes pratiques en matière de test, de déploiement et de fiabilité pour les pipelines Dataflow. Nous terminerons par une présentation des modèles, qui permettent de faire évoluer facilement les pipelines Dataflow pour les adapter aux organisations comptant des centaines d'utilisateurs. Ces leçons vous aideront à vous assurer que votre plate-forme de données est stable et résiliente face aux imprévus.
This is the fifth of five courses in the Google Cloud Data Analytics Certificate. In this course, you’ll combine and apply the foundational knowledge and skills from courses 1-4 in a hands-on Capstone project that focuses on the full data lifecycle project. You’ll practice using cloud-based tools to acquire, store, process, analyze, visualize, and communicate data insights effectively. By the end of the course, you’ll have completed a project demonstrating their proficiency in effectively structuring data from multiple sources, presenting solutions to varied stakeholders, and visualizing data insights using cloud-based software. You’ll also update your resume and practice interview techniques to help prepare for applying and interviewing for jobs.
This is the fourth of five courses in the Google Cloud Data Analytics Certificate. In this course, you’ll focus on developing skills in the five key stages of visualizing data in the cloud: storytelling, planning, exploring data, building visualizations, and sharing data with others. You’ll also gain experience using UI/UX skills to wireframe impactful, cloud-native visualizations and work with cloud-native data visualization tools to explore datasets, create reports, and build dashboards that drive decisions and foster collaboration.
This is the third of five courses in the Google Cloud Data Analytics Certificate. In this course, you’ll begin by getting an overview of the data journey, from collection to insights. You’ll then learn how to use SQL to transform raw data into a usable format. Next, you’ll learn how to transform high volumes of data with a data pipeline. Finally, you’ll gain experience applying transformation strategies to real data sets to solve business needs.
This is the second of five courses in the Google Cloud Data Analytics Certificate. In this course, you’ll explore how data is structured and organized. You’ll gain hands-on experience with the data lakehouse architecture and cloud components like BigQuery, Google Cloud Storage, and DataProc to efficiently store, analyze, and process large datasets.
Ce cours a pour objectif d'aider les participants à créer un plan de formation pour l'examen de certification Professional Data Engineer. Les participants découvriront l'étendue et le champ d'application des domaines abordés lors de l'examen, puis évalueront leur niveau de préparation à l'examen et créeront leur propre plan de formation.
Terminez le cours intermédiaire Ingénierie des données pour la modélisation prédictive avec BigQuery ML pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création de pipelines de transformation des données dans BigQuery avec Dataprep by Trifacta ; l'utilisation de Cloud Storage, Dataflow et BigQuery pour créer des workflows ETL (Extract, Transform and Load) ; et la création de modèles de machine learning avec BigQuery ML. Un badge de compétence est un badge numérique exclusif délivré par Google Cloud. Il atteste de votre expertise des produits et services Google Cloud et de votre capacité à mettre en pratique vos connaissances dans un environnement concret et interactif. Terminez le cours et passez l'évaluation finale de l'atelier challenge pour recevoir un badge numérique que vous pourrez partager avec votre réseau.
This is the first of five courses in the Google Cloud Data Analytics Certificate. In this course, you’ll define the field of cloud data analysis and describe roles and responsibilities of a cloud data analyst as they relate to data acquisition, storage, processing, and visualization. You’ll explore the architecture of Google Cloud-based tools, like BigQuery and Cloud Storage, and how they are used to effectively structure, present, and report data.
Terminez le cours d'introduction Créer un maillage de données avec Dataplex pour recevoir un badge démontrant vos compétences dans les domaines suivants : la création d'un maillage de données avec Dataplex pour faciliter la sécurité, la gouvernance et la découverte des données sur Google Cloud. Cela comprend l'ajout de tags à des éléments, l'attribution de rôles IAM et l'évaluation de la qualité des données dans Dataplex. Un badge de compétence est un badge numérique exclusif délivré par Google Cloud. Il atteste de votre expertise des produits et services Google Cloud et de votre capacité à mettre en pratique vos connaissances dans un environnement concret et interactif. Terminez ce cours et passez l'évaluation finale de l'atelier challenge pour recevoir un badge numérique que que vous pourrez partager avec votre réseau.
Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.
Intégrer le machine learning à des pipelines de données renforce la capacité à dégager des insights des données. Ce cours passera en revue plusieurs façons d'intégrer le machine learning à des pipelines de données sur Google Cloud. Vous découvrirez AutoML pour les cas ne nécessitant que peu de personnalisation (voire aucune), ainsi que Notebooks et BigQuery ML pour les situations qui requièrent des capacités de machine learning plus adaptées. Enfin, vous apprendrez à utiliser des solutions de machine learning en production avec Vertex AI.
Le traitement de flux de données est une pratique de plus en plus courante, car elle permet aux entreprises d'obtenir des métriques sur leurs activités commerciales en temps réel. Ce cours explique comment créer des pipelines de flux de données sur Google Cloud et présente Pub/Sub, une solution qui permet de gérer des données de flux entrants. Par ailleurs, vous verrez comment appliquer des agrégations et des transformations à des flux de données à l'aide de Dataflow, mais aussi comment stocker des enregistrements traités dans BigQuery ou Bigtable pour qu'ils puissent être analysés. Les participants mettront en pratique les connaissances qu'ils auront acquises en créant des composants de pipelines de flux de données sur Google Cloud à l'aide de Qwiklabs.
Les pipelines de données s'inscrivent généralement dans l'un des paradigmes EL (extraction et chargement), ELT (extraction, chargement et transformation) ou ETL (extraction, transformation et chargement). Ce cours indique quel paradigme utiliser pour le traitement de données par lot en fonction du contexte. Il présente également plusieurs technologies Google Cloud de transformation des données, y compris BigQuery, l'exécution de Spark sur Dataproc, les graphiques de pipelines dans Cloud Data Fusion et le traitement des données sans serveur avec Dataflow. Les participants mettront en pratique les connaissances qu'ils auront acquises en créant des composants de pipelines de données sur Google Cloud à l'aide de Qwiklabs.
Les lacs de données et les entrepôts de données sont les deux principaux composants des pipelines de données. Ce cours présente des cas d'utilisation de chaque type de stockage, ainsi que les détails techniques des solutions de lacs et d'entrepôts de données disponibles sur Google Cloud. Il décrit également le rôle des ingénieurs de données et les avantages d'un pipeline de données réussi sur les opérations commerciales, avant d'expliquer pourquoi il est important de procéder à l'ingénierie des données dans un environnement cloud. Il s'agit du premier cours de la série "Ingénierie des données sur Google Cloud". Après l'avoir terminé, inscrivez-vous au cours "Créer des pipelines de données en batch sur Google Cloud".
Terminez le cours d'introduction Préparer des données pour les API de ML sur Google Cloud pour recevoir un badge démontrant vos compétences dans les domaines suivants : le nettoyage des données avec Dataprep by Trifacta, l'exécution de pipelines de données dans Dataflow, la création de clusters et l'exécution de jobs Apache Spark dans Dataproc, et l'appel d'API de ML comme l'API Cloud Natural Language, l'API Google Cloud Speech-to-Text et l'API Video Intelligence. Un badge de compétence est un badge numérique exclusif délivré par Google Cloud. Il atteste de votre expertise des produits et services Google Cloud, et de votre capacité à mettre en pratique vos connaissances dans un environnement concret et interactif. Terminez ce cours et passez l'évaluation finale de l'atelier challenge pour recevoir un badge de compétence que vous pourrez partager avec votre réseau.
Ce cours est le premier d'une série en trois volets sur le traitement des données sans serveur avec Dataflow. Dans ce premier cours, nous allons commencer par rappeler ce qu'est Apache Beam et sa relation avec Dataflow. Ensuite, nous aborderons la vision d'Apache Beam et les avantages de son framework de portabilité, qui permet aux développeurs d'utiliser le langage de programmation et le backend d'exécution de leur choix. Nous vous montrerons aussi comment séparer le calcul du stockage et économiser de l'argent grâce à Dataflow, puis nous examinerons les interactions entre les outils de gestion de l'identification et des accès avec vos pipelines Dataflow. Enfin, nous verrons comment implémenter le modèle de sécurité adapté à votre cas d'utilisation sur Dataflow.
Terminez le cours intermédiaire Créer un entrepôt de données avec BigQuery pour recevoir un badge démontrant vos compétences dans les domaines suivants : la jointure de données pour créer des tables, la résolution des problèmes liés aux jointures, l'ajout de données avec des unions, la création de tables partitionnées par date, et l'utilisation d'objets JSON, ARRAY et STRUCT dans BigQuery. Un badge de compétence est un badge numérique exclusif délivré par Google Cloud. Il atteste de votre expertise des produits et services Google Cloud, et de votre capacité à mettre en pratique vos connaissances dans un environnement concret et interactif. Terminez ce cours et passez l'évaluation finale de l'atelier challenge
Ce cours présente les produits et services Google Cloud pour le big data et le machine learning compatibles avec le cycle de vie "des données à l'IA". Il explore les processus, défis et avantages liés à la création d'un pipeline de big data et de modèles de machine learning avec Vertex AI sur Google Cloud.