avatar

REX | Airflow

Apache Airflow est un outil de planification de workflows open source qui permet de définir, planifier et suivre les tâches et les workflows de manière centralisée. Il est largement utilisé dans l’industrie pour automatiser les processus de traitement de données, tels que l’extraction, la transformation et le chargement de données (ETL), l’analyse de données en temps réel et la gestion de pipelines de machine learning.

REX | gRPC

gRPC est un framework gratuit et open-source permettant aux utilisateurs définir les REQUÊTES et les RÉPONSES pour du RPC (Remote Procedure Calls).

Il a été développé par Google et maintenu par la CNCF (Cloud Native Computation Foundation) au même titre que Docker, et Kubernetes.

gRPC est un framework moderne, de faible latence conseillé pour ses performances, et son effet catalyseur dans une architecture micro-service.

Il utilise le protocole HTTP/2 pour le transport, est language-independant, supporte le streaming, et facilite l’intégration de l’authentification, le load balancing, le logging, et le monitoring.

REX | Kafka - Replay

Dans le cadre d’un projet sourcé depuis l’open data, j’ai mis en place un système d’ingestion de donnée permettant de gérer les éventuels changement de schémas ou un breaking change de la source tierce qui est instable. Question Comment gérer les breaking changes des sources de données tierces ? Architecture Implémentation Stockage brut et structuré Le topic des events brut permet de garder la donnée chez nous, elle pourra ainsi être rejouée.

REX | Spark - Shuffle

Certaines opérations dans Spark déclenchent un événement appelé shuffle.

Le shuffle est le mécanisme de Spark pour redistribuer les données afin qu’elles soient regroupées différemment entre les partitions.

Cela implique généralement la copie des données entre les exécuteurs et les machines, ce qui fait du shuffle une opération complexe et coûteuse.