08
Traitement des données sans serveur avec Dataflow : développer des pipelines
08
Traitement des données sans serveur avec Dataflow : développer des pipelines
Dans ce deuxième volet de la série de cours sur Dataflow, nous allons nous intéresser de plus près au développement de pipelines à l'aide du SDK Beam. Nous allons commencer par passer en revue les concepts d'Apache Beam. Nous allons ensuite parler du traitement des données par flux à l'aide de fenêtres, de filigranes et de déclencheurs. Nous passerons ensuite aux options de sources et de récepteurs dans vos pipelines, aux schémas pour présenter vos données structurées, et nous verrons comment effectuer des transformations avec état à l'aide des API State et Timer. Nous aborderons ensuite les bonnes pratiques qui vous aideront à maximiser les performances de vos pipelines. Vers la fin du cours, nous présentons le langage SQL et les DataFrames pour représenter votre logique métier dans Beam, et nous expliquons comment développer des pipelines de manière itérative à l'aide des notebooks Beam.
- Passer en revue les principaux concepts d'Apache Beam abordés dans le cours "Data Engineering on Google Cloud"
- Passer en revue les concepts de base du traitement par flux abordés dans le cours "Ingénierie des données" (PCollections illimitées, fenêtres, filigranes et déclencheurs)
- Sélectionnez et ajustez les E/S de votre choix pour votre pipeline Dataflow
- Utilisez des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline
- Implémenter les bonnes pratiques pour les pipelines Dataflow
- Développer un pipeline Beam à l'aide de SQL et de DataFrames
Traitement des données sans serveur avec Dataflow : principes de base