Como criar pipelines de dados em lote no Google Cloud
Como criar pipelines de dados em lote no Google Cloud
Os pipelines de dados geralmente se encaixam em um desses três paradigmas: extração e carregamento (EL), extração, carregamento e transformação (ELT) ou extração, transformação e carregamento (ETL). Este curso descreve qual paradigma deve ser usado em determinadas situações e quando isso ocorre com dados em lote. Além disso, vamos falar sobre várias tecnologias no Google Cloud para transformação de dados, incluindo o BigQuery, a execução do Spark no Dataproc, gráficos de pipeline no Cloud Data Fusion e processamento de dados sem servidor com o Dataflow. Os participantes vão ganhar experiência prática na criação de componentes de pipelines de dados no Google Cloud usando o Qwiklabs.
- Analisar diferentes métodos de carregamento de dados: EL, ELT e ETL e quando usar cada um deles.
- Executar o Hadoop no Dataproc, usar o Cloud Storage e otimizar os jobs do Dataproc.
- Usar o Dataflow para criar pipelines de processamento de dados.
- Gerenciar pipelines de dados com o Data Fusion e o Cloud Composer.
Experiência com atividades de modelagem de dados e ETL (extração, transformação e carregamento).
Experiência com desenvolvimento de aplicativos usando uma linguagem de programação comum, como Python ou Java.