Was ist ELT (Extraktion, Laden, Transformation)?
Artikel, gemeinsam verfasst von Estefanía Guzmán und José Ángel Quevedo.
Im Gegensatz zum ETL-Prozess, bei dem die Daten vor dem Laden des Zielsystems transformiert werden müssen, verfolgt der ELT-Prozess eine andere Strategie. Anstatt die Daten zur Transformation in eine Zwischenumgebung zu verschieben, lädt ELT die Rohdaten direkt in das Speichersystem und führt die Transformationen erst danach durch.
Mit dem ELT-Datenflussprozess werden die Datenbereinigung, -anreicherung und -umwandlung direkt in unserem Speichersystem durchgeführt. Die Rohdaten werden dauerhaft in diesem System gespeichert, so dass jederzeit mehrere Transformationen durchgeführt werden können.
Cloud-Data-Warehousing-Systeme wie Snowflake, Amazon Redshift, Google BigQuery, Azure Data Lake, Azure Synapse und andere verfügen über die erforderliche digitale Infrastruktur, sowohl in Bezug auf die Speicherung als auch auf die Verarbeitungsleistung, um große Datenmengen zu verarbeiten.
Obwohl die ELT-Datenpipeline nicht überall eingesetzt wird, nimmt ihre Beliebtheit zu, da Unternehmen ihre Infrastrukturen auf Cloud-Umgebungen umstellen.
ETL vs. ELT: Wie unterscheiden sich diese Prozesse?
Es gibt zwei Hauptaspekte, die die ETL- und ELT-Prozesse unterscheiden: Der erste ist der Ort, an dem die Datenumwandlung stattfindet, während der zweite damit zusammenhängt, wie die Daten in den Speichersystemen aufbewahrt werden.
ETL wandelt die Daten auf einem separaten Verarbeitungsserver um, während ELT die Daten im Data Warehouse selbst umwandelt.
Das heißt, ETL überträgt die Daten nicht an das Warehouse, ohne sie vorher zu verarbeiten, während ELT die Rohdaten direkt an das Warehouse sendet.
Im Falle von ETL wird der Dateneingabeprozess verlangsamt, indem die Daten vor dem Ladevorgang auf einem separaten Server transformiert werden.
Im Gegensatz dazu bietet das ELT-Verfahren eine schnellere Datenaufnahme, da die Daten zur Umstrukturierung nicht an einen sekundären Server gesendet werden. Mit ELT können die Daten sogar gleichzeitig geladen und transformiert werden.
Die Rohdatenaufbewahrung von ELT schafft ein ideales historisches Archiv für die Generierung von Business Intelligence. Wenn sich Ziele und Strategien ändern, können BI-Teams auf die Rohdaten zurückgreifen, um neue Transformationen mit vollständigen Datensätzen zu entwickeln. ETL hingegen erzeugt keine vollständigen Rohdatensätze, die erneut abgefragt werden können: Es speichert nur Daten, die bereits transformiert wurden.
Diese Faktoren machen ELT flexibler, effizienter und skalierbarer, insbesondere für die Aufnahme großer Datenmengen, die Verarbeitung von Sätzen mit strukturierten und unstrukturierten Daten und die Entwicklung verschiedener Business Intelligence.
Die Art und Weise, wie unstrukturierte Daten verarbeitet werden, ist entscheidend. Gegenwärtig ist ELT die beste Option, da es im Vergleich zu ETL, das üblicherweise für strukturierte Daten verwendet wird, eine bessere Verarbeitung halbstrukturierter und unstrukturierter Daten bietet.
Die meisten Daten sind unstrukturiert (Bilder, Videos, PDF-Dateien, PowerPoint-Dokumente usw.), so dass diese Art von Daten nach wie vor schwerer zugänglich und zu verarbeiten ist. In Zukunft wird sich die Industrie darauf konzentrieren, die Schwierigkeiten zu beseitigen und die Interpretation dieser unstrukturierten Daten zu verbessern, und ELT wird dabei eine wichtige Rolle spielen.
ETL ist jedoch ideal für rechenintensive Transformationen, Systeme mit veralteten Architekturen oder Daten-Workflows, die vor der Eingabe in ein Zielsystem manipuliert werden müssen, wie z. B. die Entfernung von personenbezogenen Daten.
Die ETL- und ELT-Datenpipeline umfasst Bereinigung und Filterung, die ein wichtiger Bestandteil des Datenumwandlungsprozesses sind. Und da die ETL-Methode die Umwandlung abschließt, bevor die Daten auf den Server hochgeladen werden, ist sie besser geeignet, um die Datenschutz- und Sicherheitsstandards für die mögliche Übertragung sensibler Daten zu erfüllen.
Vergleich ETL vs. ELT
Kategorie | ETL | ELT |
Definition | Daten werden aus einem Quellsystem extrahiert, auf einem sekundären Verarbeitungsserver transformiert und in ein Zielsystem geladen. | Daten werden aus einem Quellsystem extrahiert, in ein Zielsystem geladen und innerhalb des Zielsystems transformiert. |
Extraktion | Die Rohdaten werden über API-Konnektoren extrahiert. | Die Rohdaten werden mithilfe von API-Konnektoren extrahiert. |
Transformation | Die Rohdaten werden in einen Verarbeitungsserver transformiert. | Die Rohdaten werden innerhalb des Zielsystems transformiert. |
Laden | Die transformierten Daten werden in ein Zielsystem geladen. | Die Rohdaten werden direkt in das Zielsystem geladen. |
Geschwindigkeit | ETL ist ein zeitaufwändiger Prozess; die Daten werden transformiert, bevor sie in ein Zielsystem geladen werden. | ELT ist im Vergleich dazu schneller; die Daten werden direkt in ein Zielsystem geladen und parallel transformiert. |
Codebasierte Transformationen | Sie werden auf einem zweiten Server durchgeführt. Am besten geeignet für rechenintensive Transformationen und Vorbereinigungen. | Transformationen, die in der Datenbank durchgeführt werden; gleichzeitiges Laden und Transformieren; Geschwindigkeit und Effizienz. |
Datenschutz | Vor dem Laden durchgeführte Umwandlungen können PII eliminieren (HIPPA-Unterstützung). | Direktes Hochladen von Daten erfordert mehr Datenschutzmaßnahmen. |
Wartung | Der zweite Verarbeitungsserver erhöht den Wartungsaufwand. | Durch die Verwendung von weniger Systemen wird der Wartungsaufwand verringert. |
Ablauf | Die Daten werden transformiert, bevor sie in das Zielsystem gelangen; daher können die Rohdaten nicht erneut abgefragt werden. | Die Rohdaten werden direkt in das Zielsystem geladen und können unbegrenzt abgefragt werden. |
Datenvolumen | Ideal für kleine Datenmengen mit komplizierten Transformationsanforderungen. | Ideal für große Datensätze, die Schnelligkeit und Effizienz erfordern.Fazit |
Cloud-Data-Warehouses haben eine neue Grenze für die Datenintegration geschaffen. Die Wahl zwischen ETL- und ELT-Verfahren hängt von den Bedürfnissen des Teams und des Projekts ab.
In beiden Fällen ist das Ziel jedoch klar: die Daten für die Analyse vorzubereiten und für die Entscheidungsfindung zu nutzen. Der einfachste Weg, das Dilemma zwischen ETL und ELT zu lösen und die Unterschiede zu verstehen, besteht darin, das T in beiden Ansätzen zu verstehen. Der entscheidende Faktor, der die beiden unterscheidet, ist, wann und wo die Transformation durchgeführt wird.
Die Implementierung eines ELT-Prozesses ist im Vergleich zu ETL schwieriger. Unternehmen bevorzugen ELT jedoch aufgrund der schnelleren Leistung, Vielseitigkeit und Skalierbarkeit gegenüber ETL.
Im Gegensatz dazu bieten ETL-Datenpipelines einen sichereren Prozess für den Umgang mit sensiblen Daten und die Einhaltung von Compliance-Standards.
Unabhängig davon, für welche Option man sich entscheidet, aktivieren Datenteams in allen Bereichen ihre Integrationsstrategien durch den Einsatz einer Datenintegrationsplattform. Wir können Ihnen dabei helfen, eine solche Plattform einzurichten.