12.05.2025 –, Konferenz 3
Extract-Transform-Load-Prozesse (ETL) sind ein gut verstandenes Problem. Mit Spark, Flink oder Kafka Streams lassen sich Daten von beliebigen Quellen laden, transformieren und anschließend in beliebige Zielsysteme weiterleiten. Ausfallsicherheit, Persistenz, Verarbeitungsreihenfolge -- alles ist bereits gelöst -- für 80% aller Probleme. Was ist mit den Randfällen? Wie modelliert man Joins auf sekundären Schlüsseln, und das inkrementell und effizient, und für mehr als nur zwei Datenflüsse? Was passiert, wenn die Verarbeitungsfenster zu klein sind für die betreffenden Daten? Was ist mit Gruppierung von Daten anhand von Sekundärschlüsseln? Wie können rekursive Datenstrukturen aus Datenflüssen erstellt werden? Genau diese Probleme sehen wir in einem Kundensystem und haben dafür eine Individuallösung gebaut. Unser Vortrag beschreibt, wie wir vorgegangen sind, wie die Lösung aussieht und wie sie sich im Betrieb verhält.