Skip to main content
August 23, 2022

Data Warehouse vs. Data Lake vs. Data Mesh: Die wichtigsten Unterschiede

*Mit der Unterstützung von Blanca Mayayo.

Data Lake vs. Data Warehouse vs. Data Mesh. Spezialisten für Datenarchitektur sind mit diesen drei Konzepten vertraut. Data Lake und Data Warehouse beziehen sich auf unterschiedliche Formate der Datenspeicherung, -analyse und -abfrage, während Data Mesh eine Reihe von Konzepten im Zusammenhang mit der dezentralen und groß angelegten Datenverwaltung umfasst.

Laut einer Gartner-Studie vom Juni 2020 haben 57 % der Führungskräfte, die für Daten oder Analysen verantwortlich sind, in Data Warehouse investiert und 39 % nutzen Data Lakes. Laut dem Beratungsunternehmen sind Data Hubs, Data Lakes und Data Warehouses „alle wichtige Investitionsbereiche für Daten- und Analytikverantwortliche, um zunehmend komplexe, vielfältige und verteilte Daten-Workloads zu unterstützen.

Diese Architekturen tragen dazu bei, die Nutzung von Daten im Unternehmen zu demokratisieren. Außerdem ermöglichen sie ein flexibleres Datenmanagement als in der Vergangenheit. Jede dieser Architekturen hat ihre eigenen Besonderheiten und Vorteile gegenüber den anderen. In diesem Beitrag werfen wir einen Blick auf alle von ihnen.

Was ist ein Data Warehouse?

Ein Data Warehouse ist eine Struktur, die geschaffen wurde, um große Mengen ungefilterter Daten aus verschiedenen Quellen zu sortieren. In diesem Fall sind die Daten nur strukturiert und können analysiert werden. Diese Architektur ermöglicht mehreren Personen den gleichzeitigen Zugriff mit hoher Leistung.

Bild zum Vergleich von Data Warehouse, Data Lake und Data Mesh

Vorteile eines Data Warehouse

Mit dem Data Warehouse werden Daten nicht nur gespeichert, sondern auch strukturiert. Diese Architektur empfiehlt sich, wenn große Mengen an bereits verarbeiteten Daten für Abfragen benötigt werden. In diesem Fall ist die Produktivität für bestimmte Benutzergruppen, wie Datenanalysten, oder für die Integration in analytische Anwendungen (z.B. Business Intelligence) höher.

Herausforderungen eines Data Warehouse

Das Data Warehouse zeichnet sich dadurch aus, dass es nur strukturierte Daten verarbeitet. Dies verhindert, dass unstrukturierte Daten für Machine Learning Anwendungen genutzt werden können. Da es sich zum anderen um eine meist proprietäre Software handelt, kann es schwierig sein, sie mit externen Open-Source-Tools zu verbinden, obwohl es für viele Systeme bereits Integrationslösungen gibt.

Bild zu Data Warehouse, Data Lake und Data Mesh

Was ist ein Data Lake?

Ein Data Lake ist ein Datenspeicher, in dem in einer ersten Phase die Daten roh und ohne einheitliches Schema gespeichert werden. Auf diese Weise werden die Daten für die künftige Nutzung verfügbar gemacht. Falls erforderlich, können zusätzliche Schichten im Data Lake die Daten verarbeiten und in ein Unternehmensschema konvertieren und übersetzen.

Vorteile eines Data Lake vs. Data Warehouse

Da die Daten in Rohform gespeichert werden und jederzeit verwendet werden können, ist ein Data Lake die ideale Struktur, wenn bekannt ist, dass die Daten langfristig und von verschiedenen Systemen und Teilen des Unternehmens wiederverwendet werden sollen. Weitere Vorteile eines Data Lake sind:

  • Geschwindigkeit bei der Erstellung und Analyse neuer Modelle, was besonders von Data Scientists geschätzt wird.
  • Günstige Hardware und (in vielen Fällen) Verwendung von Open-Source-Technologien.
  • Reduzierte Verschwendung von Ressourcen, die hauptsächlich bei der Nutzung der Daten verbraucht werden.

Seehaus

Ein verwandtes Konzept ist das Lakehouse, eine Kombination aus Data Lake und Data Warehouse, die die besten Elemente beider Architekturen miteinander verbindet. Wie wir gesehen haben, ist es schwierig, Open-Source-Tools in ein Data Warehouse zu integrieren, so dass die Zusammenführung dieser beiden Philosophien ideal ist, um die Vorteile beider Konzepte voll auszuschöpfen.

Herausforderungen eines Data Lake

Zu den Herausforderungen, die vor der Implementierung eines Data Lake bedacht werden sollten, gehören die folgenden:

  • Die Komplexität des Einsatzes und der Verwaltung: eine wachsende Datenbank, die Pflege der bereits gespeicherten Daten, mögliche Redundanzen…
  • Die Notwendigkeit, die Datenbank zu aktualisieren, z. B. bei Anträgen auf das Recht auf Vergessenwerden.
  • Obwohl er sich ideal für die Speicherung und Verwaltung von Daten eignet, ist es notwendig, weiter zu gehen, um einen Mehrwert aus ihnen zu ziehen. In diesem Sinne ist der Data Lake eine Ergänzung zum Data Warehouse.
  • Es ist notwendig, die Historie der Datenversionen aufzubewahren oder auf Zusammenführungen, Aktualisierungen, Löschungen usw. aufmerksam zu sein.
  • Personen mit weniger Fachwissen können Probleme bei der Analyse unstrukturierter Daten haben.

Was ist ein Data Mesh

Das Data Mesh ist als neuer soziotechnischer und organisatorischer Ansatz für Daten entstanden, um auf die Komplexität, den Umfang und die wachsenden Anforderungen im Datenmanagement zu reagieren. In diesem Fall sind die Systeme und Geräte des Data Mesh dezentralisiert, miteinander verbunden und werden in großem Maßstab verwaltet. Ein Data Mesh könnte von Data Lake- oder Data Warehouse-Systemen profitieren, wenn die granulare und dezentralisierte Natur der Datenverwaltung beachtet wird.

Daher könnte ein Weg zum Data Mesh darin bestehen, bestehende Data-Warehouse- oder Data-Lake-Strukturen zu nutzen, aber ihren rein zentralisierten Ansatz zu ändern und die Teams und Fähigkeiten dieser Technologien in bestimmten Teilen der Datenarchitektur zu organisieren, so dass sie auf dezentrale Weise genutzt werden können. Mit anderen Worten: Sie können auf den bisherigen Erfahrungen mit Data Warehouse und Data Lake aufbauen.

Vorteile eines Data Mesh

Das Data Mesh ist eine ideale Struktur für die Verteilung von Daten auf die verschiedenen Abteilungen eines Unternehmens. Mit anderen Worten, sie gehen über die Datenabteilung hinaus, damit alle Mitarbeiter die Möglichkeiten der gesammelten Informationen nutzen können. Das Ziel ist nämlich, dass die Datenanalyse es ermöglicht, Metriken zu erhalten, mit denen Unternehmensentscheidungen getroffen werden können: neue Geschäftsmöglichkeiten zu finden, frühere Entscheidungen zu korrigieren, usw.

In einem LinkedIn-Artikel erklärte Jeffrey T. Pollock, VP of Products bei Oracle, dass Data Mesh ideal für Anwendungen wie die Migration von Anwendungen in die Cloud, die Echtzeit-Integration zwischen diesen, IoT und Analytik oder die Analyse des Datenflusses in Bewegung ist.

Data Mesh und Sidra Data Platform

Wenn Sie mehr über Data Mesh erfahren möchten, hat unsere Kollegin Blanca Mayayo einen Vortrag über diese Datenplattform und ihre Verknüpfung mit Sidra Data Platform gehalten, einem Produktivitätswerkzeug für das Datenmanagement, das eine Reihe von Tools und Beschleunigern bietet, die von Plain Concepts entwickelt wurden, um Daten in Azure aufzunehmen, zu katalogisieren und zu verwalten:

Möchten Sie wissen, welche Datenarchitektur die richtige für Ihr Unternehmen ist?

Wie Sie gesehen haben, haben Data Warehouse, Data Lake und Data Mesh sehr unterschiedliche Ansätze. Jetzt müssen Sie sich nur noch für den am besten geeigneten Ansatz entscheiden.

Wir helfen Ihnen bei der Auswahl der besten Datenarchitektur für Ihre Geschäftsziele. Wir freuen uns darauf, von Ihnen zu hören.