Analytics, Daten & KI

Was ist ein Data Warehouse (und ein Lakehouse)?

Ein Data Warehouse ist eine zentrale, für Analysen optimierte Datenbank, in der Daten aus verschiedenen operativen Systemen zusammengeführt, bereinigt und historisiert werden. Ein Lakehouse kombiniert die Flexibilität und niedrigen Speicherkosten eines Data Lakes mit den Struktur- und Performance-Eigenschaften eines Warehouse und bildet so eine gemeinsame Grundlage für Reporting, Analytik und Machine Learning.

Auch bekannt als: DWH · Datenlager · Enterprise Data Warehouse · EDW · Data Lakehouse · Lakehouse

Integrationkonsolidiert
ExcelSQLAPIs
Data Warehousezentral & konsistent
Power BIReporting
Verteilte Quellen werden zentral integriert und konsistent fürs Reporting bereitgestellt.
01

Einordnung: Wofür wird ein Data Warehouse genutzt?

Ein Data Warehouse trennt die Analysewelt von den operativen Systemen. Statt Berichte direkt auf ERP-, CRM- oder Produktionsdatenbanken laufen zu lassen, werden die relevanten Daten regelmäßig extrahiert, vereinheitlicht und in einem für Abfragen optimierten Modell abgelegt. So entsteht eine konsistente, historisierte Datenbasis, auf der Reporting und Analysen verlässlich und performant arbeiten.

Das Lakehouse ist die modernere Ausprägung dieser Idee. Daten liegen zunächst kostengünstig in einem Data Lake (Objektspeicher) und werden über offene Tabellenformate wie Delta Lake mit Transaktionssicherheit, Schema-Verwaltung und Performance versehen. Dadurch lassen sich strukturierte Tabellen für klassisches Reporting und unstrukturierte oder halbstrukturierte Daten für Data Science auf derselben Plattform verwalten.

02

Beispiel aus der Praxis

Ein typisches Szenario: Auftragsdaten liegen im ERP, Kundendaten im CRM, Zeiterfassung in Excel und Sensordaten in einer separaten Datenbank. Ein Data Warehouse oder Lakehouse führt diese Quellen zusammen, vereinheitlicht Schlüssel und Begriffe und stellt eine saubere Schicht bereit, auf der Power BI direkt aufsetzen kann.

Bei smiit ist die Datenplattform der dy Project AG ein konkretes Beispiel: Für ein Großbauprojekt mit einem Volumen von über 1 Mrd. CHF wurden Daten aus SQL Server, Excel-Dateien und REST-APIs auf Azure Databricks in einem Lakehouse zusammengeführt und entlang einer Medallion-Architektur (Bronze/Silver/Gold) veredelt.

03

Vorteile & typische Anwendungsfälle

Ein Data Warehouse oder Lakehouse lohnt sich, sobald Reporting über mehrere Quellen, große Datenmengen oder eine verlässliche Historie gefragt sind.

  • Eine gemeinsame Datenwahrheit für Management-Reporting und Controlling über System- und Abteilungsgrenzen hinweg
  • Historisierung: Kennzahlen lassen sich über Zeit vergleichen, auch wenn operative Systeme nur den aktuellen Stand kennen
  • Performante Abfragen, ohne die operativen Systeme zu belasten
  • Eine Plattform, die Reporting und Machine Learning auf derselben veredelten Datenbasis ermöglicht (Lakehouse)
04

Abgrenzung zu verwandten Begriffen

Ein Data Lake speichert Rohdaten ohne festes Schema und ist günstig, aber ohne Veredelung schwer analytisch nutzbar. Ein klassisches Data Warehouse ist stark strukturiert und auf SQL-Reporting optimiert, aber weniger flexibel für unstrukturierte Daten. Das Lakehouse verbindet beide Welten. Die Befüllung erfolgt über ETL- oder ELT-Prozesse, die Strukturierung über Datenmodellierung und Ansätze wie die Medallion-Architektur. Power BI ist die analytische Oberfläche, die auf der veredelten Schicht aufsetzt, nicht das Warehouse selbst.

05

Bezug zu smiit

smiit konzipiert und baut Data Warehouses und Lakehouses für den Mittelstand, vorzugsweise im Microsoft- und Azure-Umfeld. Von der Anbindung der Quellsysteme über die Modellierung und Veredelung bis zur Governance entsteht eine Datenplattform, die Reporting und Analytik tragfähig macht, statt nur Daten zu sammeln.

Häufige Fehler & Missverständnisse

  • Ein Data Warehouse ist nicht einfach eine große Datenbank; es ist für analytische Abfragen optimiert und integriert Daten aus vielen Quellen in ein konsistentes, historisiertes Modell.
  • Viele denken, ein Data Warehouse sei für Echtzeit-Transaktionen gedacht. Es ist jedoch auf Lese- und Auswertungslast ausgelegt, nicht auf das operative Tagesgeschäft (OLTP).
  • Ein verbreiteter Fehler ist, das Data Warehouse mit einem Data Lake zu verwechseln. Der Lake speichert Rohdaten in beliebigem Format, das Warehouse strukturierte, modellierte Daten.

Häufige Fragen

Was ist der Unterschied zwischen Data Warehouse und Data Lake?

Ein Data Lake speichert Rohdaten kostengünstig und ohne festes Schema, während ein Data Warehouse strukturierte, für Analysen aufbereitete Daten enthält. Ein Lakehouse kombiniert beide Ansätze auf einer Plattform.

Brauchen wir als Mittelständler überhaupt ein Data Warehouse?

Sobald Reporting mehrere Quellsysteme zusammenführt, große Datenmengen anfallen oder eine verlässliche Historie benötigt wird, lohnt sich eine zentrale Datenplattform. Für sehr überschaubare Datenmengen kann eine direkte Anbindung zunächst ausreichen.

Läuft ein Lakehouse nur in der Cloud?

In der Praxis wird ein Lakehouse fast immer in der Cloud betrieben, etwa auf Azure mit Azure Databricks oder Microsoft Fabric, weil dort günstiger Objektspeicher und skalierbare Rechenleistung zusammenkommen.

Was ist der Unterschied zwischen ETL und ELT bei der Befüllung?

Bei ETL werden Daten erst transformiert und dann geladen, bei ELT zuerst geladen und anschließend in der Zielplattform transformiert. Moderne Lakehouses nutzen häufig ELT, weil günstiger Speicher und skalierbare Rechenleistung es erlauben, Rohdaten zunächst abzulegen und dort zu veredeln.

Wie aktuell sind die Daten in einem Data Warehouse?

Das hängt vom Beladungsintervall ab. Viele Warehouses werden nächtlich oder mehrmals täglich aktualisiert (Batch), für nahezu aktuelle Daten sind häufigere oder streamende Ladevorgänge möglich. Der passende Takt richtet sich nach dem fachlichen Bedarf und den Kosten.

Verwandte Begriffe

Quellen & weiterführende Links

Sie möchten dieses Thema in Ihrem Unternehmen umsetzen?

Aktualisiert am · Zurück zum Glossar

Kontaktieren Sie uns