Wissen

Vom organischen Wachstum zum kontrollierten Datenprodukt

Immer mehr Unternehmen setzen auf moderne Transformationstools wie dbt, um ihre Datenpipelines modular, versionierbar und fachlich nachvollziehbar aufzubauen. dbt ermöglicht es, Datenmodelle strukturiert zu entwickeln, fachliche Logik transparent abzubilden und Analytics Engineering nachhaltig im Unternehmen zu verankern. 

Mit zunehmender Nutzung wächst jedoch auch die Komplexität: Neue fachliche Anforderungen, iterative Weiterentwicklungen oder veränderte Materialisierungen führen dazu, dass dbt-Projekte über die Zeit organisch anwachsen

Ohne klare Governance- und Pflegeprozesse entsteht dabei ein bekanntes Problem: Der Überblick geht verloren. Modelle werden nicht mehr genutzt, alte Tabellen verbleiben im Data Warehouse und fachlich relevante Objekte sind nicht eindeutig dokumentiert oder referenziert. Genau an diesem Punkt setzt unsere Bereinigungs- und Konsolidierungsinitiative an. 

 

Ausgangslage

Das dbt-Projekt unseres Kunden ist über einen längeren Zeitraum organisch gewachsen und umfasst aktuell 890 dbt-Modelle. Durch kontinuierliche Weiterentwicklung, fachliche Anpassungen sowie Umbenennungen von Modellen war davon auszugehen, dass sich im Projekt inzwischen veraltete, unbenutzte oder redundante Modelle befinden. 

Parallel dazu wurden im Data Warehouse (DWH) dbt-Modelle materialisiert, die nicht mehr im aktuellen dbt-Projekt vorhanden sind. Diese Objekte sind historisch entstanden, beispielsweise durch: 

  • Umbenennung von dbt-Modellen ohne anschließendes Entfernen der alten materialisierten Objekte
  • Entfernen von dbt-Modellen aus dem Projekt, ohne die zugehörigen Tabellen oder Views im DWH zu löschen
  • Änderungen an Materialisierungen oder Zielschemata 

Diese Situation erschwert sowohl die Wartbarkeit des dbt-Projekts als auch die Transparenz und Ordnung im DWH. 

 

Welchen Mehrwert können wir mit der Bereinigung liefern?

Ziel dieser Initiative war es, das dbt-Projekt und das angebundene Data Warehouse systematisch zu bereinigen, zu konsolidieren und langfristig wartbar zu halten. 

Die konkreten Ziele lauten: 

  • Identifikation und Bewertung von veralteten und unbenutzten dbt-Modellen
  • Reduktion der Modellanzahl auf tatsächlich genutzte und fachlich relevante Modelle
  • Verbesserung der Übersichtlichkeit, Wartbarkeit und Aktualität des dbt-Projekts
  • Identifikation von verwaisten Tabellen und Views im DWH, die nicht mehr durch das dbt-Projekt verwaltet werden
  • Bereinigung dieser nicht mehr genutzten DWH-Objekte
  • Sicherstellung einer klaren und konsistenten Beziehung zwischen dbt-Projekt und physischem Datenbestand im DWH

 

Wie sind wir methodisch vorgegangen?

Die Bereinigung erfolgte in zwei klar voneinander abgegrenzten, aber inhaltlich zusammenhängenden Untersuchungen:

 

Untersuchung 1: Veraltete und unbenutzte dbt-Modelle 

Ziel dieser Untersuchung war es, dbt-Modelle zu identifizieren, die: 

  • nicht (direkt oder indirekt) von einem Exposure genutzt werden
  • fachlich obsolet sind oder durch neuere Modelle ersetzt wurden 

Diese Untersuchung erfolgte über die Ausführung des nachfolgenden dbt-Befehls 

Die ausgegebene Liste an Modellen muss im Nachgang fachlich geprüft werden um sicherzustellen, dass keine in Entwicklung befindlichen Modelle oder relevante marts, die nicht in den Exposures aufgeführt sind, als obsolet betrachtet und gelöscht werden. 

Diese Ausführung ist gleichzeitig eine Qualitätsprüfung dafür, ob die Exposures korrekt gepflegt und alle fachlich relevanten Tabellen dort gelistet sind.

 

Untersuchung 2: Verwaiste Objekte im Data Warehouse

Zusätzlich wurde das DWH selbst analysiert. Dabei lag der Fokus auf den Schemata, die explizit im dbt-Projekt unseres Kunden verwendet werden - Für ein tieferes Verständnis dieses Aufbaus empfehlen wir den Blogpost zu unserem dbt Schichtenmodell

  • BASE
  • PSTA
  • CORE
  • MART

Für diese Schemata wurde geprüft, ob Tabellen oder Views im DWH existieren, für die kein entsprechendes Modell im aktuellen dbt-Projekt vorhanden ist. Diese Objekte sind mit hoher Wahrscheinlichkeit: 

  • Überbleibsel gelöschter oder umbenannter dbt-Modelle
  • initial erstellte Tabellen oder Views, die aufgrund überarbeiteter fachlicher Anforderungen nicht weiter relevant sind 

Da diese Objekte nicht mehr durch dbt verwaltet werden, gelten sie als unbenutzt und fachlich nicht mehr relevant

Die Untersuchung erfolgte über ein von uns erstelltes dbt-Makro, welches die Objekte in den jeweiligen Schematas im DWH scannt und mit den Modellen im dbt Projekt abgleicht. 

Die Ausführung des Makros selbst löscht nichts automatisch - Vielmehr erzeugt es ein SQL-Statement, welches zur Löschung dieser Tabellen/Views explizit manuell ausgeführt werden muss. Dadurch stellen wir sicher, dass keine relevanten Daten automatisch gelöscht werden und die Löschung erst nach fachlicher Prüfung dieser Inhalte erfolgt.

 

Welchen Impact haben wir beim Kunden erzielt?

Zum Zeitpunkt der Erstellung dieses Beitrags befindet sich der Kunde in der fachlichen Validierungsphase der identifizierten dbt-Modelle sowie der potenziell verwaisten Datenbankobjekte im Data Warehouse. 

Bereits in dieser frühen Phase konnte jedoch ein signifikanter Mehrwert erzielt werden: Erstmals liegt eine vollständige, strukturierte und nachvollziehbare Übersicht über den tatsächlichen Zustand des dbt-Projekts und der physischen DWH-Objekte vor. 

In der initialen Analyse wurden insgesamt identifiziert: 

  • 129 Datenbankobjekte (Tabellen bzw. Views) im DWH ohne Referenz im aktuellen dbt-Projekt
  • 137 dbt-Modelle in den Schichten BASE, PSTA und CORE ohne fachliche Nutzung
  • 61 dbt-Mart-Modelle, die zwar größtenteils aktiv genutzt werden, jedoch bislang nicht in den Exposures dokumentiert sind 

Insbesondere die Identifikation der nicht in Exposures aufgeführten Mart-Modelle hat einen wichtigen Governance-Effekt: Sie macht fachliche Abhängigkeiten sichtbar, schärft das Bewusstsein für die Rolle von Exposures und liefert eine belastbare Grundlage für deren vollständige und konsistente Pflege. 

Darüber hinaus versetzt die geschaffene Transparenz den Kunden erstmals in die Lage, fundierte fachliche Entscheidungen über Löschung, Konsolidierung oder Weiterentwicklung einzelner Modelle zu treffen – anstatt auf Basis historisch gewachsener Strukturen arbeiten zu müssen.

 

Fazit: 

Die durchgeführte Analyse zeigt deutlich, dass stark wachsende dbt-Projekte ohne gezielte Bereinigung langfristig an Transparenz und Wartbarkeit verlieren. Veraltete Modelle, nicht mehr genutzte Transformationen und verwaiste Tabellen im Data Warehouse sind dabei kein Zeichen schlechter Arbeit, sondern eine natürliche Folge iterativer Datenentwicklung
Entscheidend ist jedoch, wie mit diesem Wachstum umgegangen wird. Eine strukturierte Bereinigung schafft nicht nur Ordnung, sondern erhöht die fachliche Klarheit, reduziert technische Komplexität und senkt langfristig Wartungs- und Betriebskosten. 

Um die langfristige Qualität und Wartbarkeit des dbt-Projekts sowie die Konsistenz des Data Warehouses sicherzustellen, haben wir dem Kunden empfohlen, die beschriebenen Untersuchungen nicht als einmalige Maßnahme, sondern als wiederkehrenden Prozess zu etablieren. Die Ausführung kann hierbei entweder nach Bedarf, oder aber nach einem fest definierten Turnus (quartalsweise/halbjährlich) erfolgen. 
Die Identifikation insbesondere der in den exposures fehlenden Mart-Modelle hilft dabei, Awareness für eine ordnungsgerechte und vollständige Pflege des dbt Projektes zu schaffen und damit langfristig ein ordentliches Datenprojekt zu erhalten. 

Ein aufgeräumtes dbt-Projekt ist kein Selbstzweck – es ist die Grundlage für skalierbare Analytics, saubere Governance und nachhaltige Datenprodukte.

Über den Autor: 
Ala Anghaie war zuletzt als Analytics Consultant bei einem der führenden deutschen Lebensmitteleinzelhändler tätig, ehe er 2025 als BI & Data Engineer Consultant zur drjve wechselte. Dort unterstützt er Kund:innen beim Aufbau skalierbarer Datenmodelle, moderner Datenarchitekturen auf Basis von Microsoft Fabric und bei der Datentransformation mit dbt. 

Bei Fragen kommen Sie gerne auf uns zu:

Ala Anghaie

Consultant

Weitere Beiträge

Wissen

SharePoint-Dateien mittels Fabric Notebook in ein Lakehouse laden

weiterlesen

Wissen

Performance in CCH® Tagetik: Die richtige Architektur entscheidet

weiterlesen

Wissen

Systeme am Wendepunkt – Wie man eine bestehende Applikation weiterentwickelt.

weiterlesen
Up