Architecture Lakehouse : Détection de Fraude Bancaire avec Spark & Delta Lake (2M de transactions)
Chaque seconde, des milliers de transactions bancaires sont analysées automatiquement pour détecter la fraude. Dans cette vidéo, je reproduis ce système de zéro avec Apache Spark, Delta Lake, et une architecture Lakehouse complète, sur 2 millions de transactions réelles simulées. Ce n'est pas un tutoriel théorique. C'est exactement le type de projet qu'on retrouve dans les équipes Data Engineering des grandes banques et des assurances. ───────────────────────────── ⏱ SOMMAIRE ───────────────────────────── 00:00 — Introduction & contexte bancaire 02:00 — Architecture Medallion (Bronze / Silver / Gold) 05:00 — Génération de 2M de transactions avec PySpark 8:00 — 4 règles de détection de fraude métier 18:00 — Silver Layer : nettoyage & contrôles qualité 22:00 — Gold Layer : Fraud Score pondéré & KPIs 30:00 — Optimisation Spark (explain, repartition, cache) 35:00 — Conclusion ───────────────────────────── 🛠 CE QU'ON CONSTRUIT ───────────────────────────── Un pipeline Lakehouse complet avec : —Génération de 2 millions de transactions bancaires réalistes — 4 règles de fraude inspirées des systèmes bancaires réels — Un Fraud Score pondéré normalisé sur 100 — Des KPIs : taux de fraude par pays, par heure, top suspects — Optimisations de performance Spark mesurées et comparées — Ouverture vers le Structured Streaming en temps réel ───────────────────────────── 💡 POURQUOI CE PROJET ───────────────────────────── La détection de fraude est l'un des cas d'usage les plus demandés en Data Engineering — finance, assurance, fintech. Ce projet montre concrètement comment structurer un pipeline robuste, maintenable et scalable. Vous pouvez le cloner, l'adapter, et le présenter directement en entretien. ───────────────────────────── 🛠 STACK TECHNIQUE ───────────────────────────── Apache Spark / PySpark · Delta Lake · Architecture Medallion Docker · Python ───────────────────────────── 📂 CODE SOURCE ───────────────────────────── GitHub → https://github.com/MinaDiallo/spark-f... Si ce type de contenu t'aide à progresser en Data Engineering, un like prend deux secondes et m'aide vraiment à continuer. #ApacheSpark #DataEngineering #DeltaLake #PySpark #FraudDetection #Lakehouse #BigData #Python #DataEngineer

The French Do Not Care About Work

💥 Pandas est dépassé ? Découvre Apache Spark (tu vas comprendre pourquoi)

🍿 Je prépare et profite du spectacle des interventions de l'OPT-NC/HELIA

REX S3NS - Le réseau multi-cluster, enfin simplifié : guide pratique de Cilium ClusterMesh

Comment ça marche l'IA Générative ? LLM, RAG sous le capot.

Couche sémantique : liez vos données aux termes métiers et simplifiez leur compréhension et usage.

DEVOPS et CI/CD (avec Github Actions)

Backend web development - a complete overview

De la fiche statique au suivi relationnel | Annuaire Ep4
![[Leçon inaugurale] Yann Le Cun - Apprentissage profond et au-delà : les nouveaux défis de l'IA](https://i.ytimg.com/vi/Z208NMP7_-0/hqdefault.jpg?sqp=-oaymwE9CNACELwBSFryq4qpAy8IARUAAAAAGAElAADIQj0AgKJDeAHwAQH4Af4JgALQBYoCDAgAEAEYPCBlKEowDw==&rs=AOn4CLCEu0oAHE4bEe4NUpSBvJ-i2cfb_w)
[Leçon inaugurale] Yann Le Cun - Apprentissage profond et au-delà : les nouveaux défis de l'IA

I bought the NEW BRAWL PASS! 😍 | Mohi Plays

L'innovation qui a changé la cybersécurité : le SASE, l'Interview

Gérez vos informations non structurées avec Snowflake (images, Pdf...)

Spécialisez vos Agents avec les Skills

System Design Course – APIs, Databases, Caching, CDNs, Load Balancing & Production Infra

Is RAG Still Needed? Choosing the Best Approach for LLMs

Formation n8n : 3 projets concrets avec l'IA

System Design for Beginners Course

FastBCP : l'export de données parallélisé

