Skip to content

Une plateforme Data Lakehouse temps réel conteneurisée, construite avec Kafka, Spark Streaming, Delta Lake (MinIO) et Streamlit

Notifications You must be signed in to change notification settings

FranckRuissel/DATA-STREAM-PLATFORM

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DATA-STREAM-PLATFORM

Une plateforme Data Lakehouse temps réel conteneurisée, construite avec Kafka, Spark Streaming, Delta Lake (MinIO) et Streamlit

Real-Time Data Streaming & Lakehouse Platform Ce dépôt contient l'implémentation End-to-End et fonctionnelle d'une plateforme de données moderne, conçue pour ingérer, traiter et visualiser des flux de données en temps réel.

L'objectif de ce projet était de construire une architecture scalable et résiliente capable de gérer une simulation de haute fréquence (10k événements/sec), en suivant les meilleures pratiques de l'industrie : le pattern Data Lakehouse.

🎯 Points Clés & Fonctionnalités ⚡ Pipeline Événementiel Complet : De la génération de données (Python Faker) à l'ingestion via Apache Kafka.

🏗️ Architecture Lakehouse Robuste : Utilisation de Spark Structured Streaming pour écrire des données en temps réel dans un format fiable et transactionnel (Delta Lake) sur du stockage objet S3 (MinIO). C'est la fondation de la "Bronze Layer".

✅ Gouvernance & Qualité de Donnée : Implémentation d'un Stream Processor intermédiaire pour valider les données à la volée et router les erreurs vers une Dead Letter Queue (DLQ), garantissant que seules les données propres atteignent le Lakehouse.

📊 Visualisation Temps Réel : Un dashboard Streamlit connecté directement au Lakehouse pour monitorer les KPIs d'ingestion.

🐳 Infrastructure as Code (IaC) : La stack entière (6 services) est conteneurisée et orchestrée via un unique fichier Docker Compose, permettant un déploiement local reproductible en une commande.

About

Une plateforme Data Lakehouse temps réel conteneurisée, construite avec Kafka, Spark Streaming, Delta Lake (MinIO) et Streamlit

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages