Creación de flujos de procesamiento de datos por lotes en Google Cloud
Creación de flujos de procesamiento de datos por lotes en Google Cloud
Las canalizaciones de datos suelen realizarse según uno de los paradigmas extracción y carga (EL); extracción, carga y transformación (ELT), o extracción, transformación y carga (ETL). En este curso, abordaremos qué paradigma se debe utilizar para los datos por lotes y cuándo corresponde usarlo. Además, veremos varias tecnologías de Google Cloud para la transformación de datos, incluidos BigQuery, la ejecución de Spark en Dataproc, grafos de canalización en Cloud Data Fusion y procesamiento de datos sin servidores en Dataflow. Los estudiantes obtienen experiencia práctica en la compilación de componentes de canalizaciones de datos en Google Cloud con Qwiklabs.
- Revisar los diferentes métodos de carga de datos: EL, ELT y ETL, y cuándo corresponde usarlos.
- Ejecutar Hadoop en Dataproc, usar Cloud Storage y optimizar trabajos de Dataproc.
- Compilar tus canalizaciones para el procesamiento de datos con Dataflow.
- Administrar canalizaciones de datos con Data Fusion y Cloud Composer.
Tener experiencia en actividades de modelado de datos y ETL (extracción, transformación y carga).
Tener experiencia en desarrollo de aplicaciones con lenguajes de programación comunes, como Python o Java.