search Das Medium für diejenigen, die das Unternehmen neu erfinden

Maximieren Sie den Wert Ihres IS mit ETL

Maximieren Sie den Wert Ihres IS mit ETL

Von Laurent Hercé

Am 29. Oktober 2024

ETL, drei Buchstaben, die ein letztlich recht einfaches Konzept abdecken: die Integration von Daten aus mehreren Quellen.


Bei Ihren Fragen zur Verbesserung Ihres Informationssystems sind Sie am Extract-Transform-Load nicht vorbeigekommen. Daraus ergeben sich einige Fragen. Wie funktioniert er? Kann ich sie mit den vorhandenen Mitteln durchführen? Welches ETL-Tool wird mir in diesem Integrationsprozess das zufriedenstellendste Ergebnis liefern?

So muss Ihnen die Notwendigkeit, den Begriff ETL besser zu verstehen, unumgänglich erschienen sein.

Was ist ein ETL?

Definition

Dieses Akronym setzt sich aus den englischen Wörtern Extract - Transform - Load zusammen. Es beschreibt die Abfolge von drei Hauptoperationen bei der Integration von Daten in ein Datenbankmanagementsystem (DBMS).

Eine ETL-Lösung ist also eine Reihe von Werkzeugen und Maschinen, die die Schnittstelle zwischen den Quellen und dem Ziel bilden.

Funktionsweise von ETL in 3 Schritten

1. E von Extract

In diesem Schritt werden die Daten aus ihren Speichersystemen extrahiert: unabhängig davon, ob sie aus einem ERP-System, einem DBMS oder aus Flat Files stammen.

2. T von Transform

Hierbei handelt es sich um die Transformation der Daten: Sie werden

  • verifiziert,
  • neu formatiert,
  • von Duplikaten bereinigt,
  • anonymisiert werden,
  • angereichert.

3. L von Load

Zum Schluss werden die Daten in das Datawarehouse geladen, wo sie den verschiedenen Tools vom Typ Data Mining oder OLAP (OnLine Analytical Processing) zur Verfügung stehen.

Je nach der Geschichte und der Architektur Ihres Informationssystems und der Vielfalt Ihrer Berufe kann dieser Prozess relativ einfach sein, aber auch eine akrobatische Leistung darstellen. In vielen Fällen kann eine gut ausgewählte ETL-Middleware hier einen erheblichen Mehrwert bieten.

Beispiel für ETL

Der anschaulichste Fall ist die Einrichtung eines Datawarehouse. Das heißt, ein Behälter für die Daten des gesamten Unternehmens in einer sauberen Form, die an verschiedene Verbraucher, Analysten, Prüfer oder andere Systeme weitergegeben werden kann.

Ein solches Data Warehouse kann dann jedem Geschäftsbereich einen eigenen Datamart zur Verfügung stellen, der seinen spezifischen Analyse- und Berichtsanforderungen entspricht. Dieser wird größtenteils auf seinen eigenen Daten basieren, aber nicht ausschließlich. Der größte Mehrwert ergibt sich aus der Anreicherung dieser Daten durch andere Systeme des Unternehmens.

Im weiteren Sinne kann ETL für jeden Bedarf an einmaligem oder wiederkehrendem Datenaustausch nützlich sein. Zum Beispiel :

  • eine Migration von operativen Systemen,
  • Austausch mit Partnern oder Regulierungsbehörden,
  • oder auch ein System zur Archivierung, Sicherung oder Redundanz.

Schließlich werden die ETL-Lösungen ständig erweitert, um Funktionen zu integrieren, die manchmal als zweitrangig angesehen werden. Dabei kann es sich um die Überwachung des Informationsaustauschs, das Qualitätsmanagement und die Rückverfolgung von Informationen oder sogar die Bereitstellung von Informationen per ESB handeln.

Die Vorteile von ETL für Ihr Unternehmen

  • Weiterentwicklung Ihrer IT-Architektur auf eine höhere Ebene der Integration, der Kontrolle und des Datenaustauschs ;
  • bessere Erfüllung der verschiedenen Bedürfnisse der Mitarbeiter :
    • interne Bedürfnisse: das Unternehmen am Leben erhalten, indem die Kommunikation von homogenen Informationen zwischen den Abteilungen ermöglicht wird, um bestmöglich auf seine Aktivitäten reagieren zu können,
    • externe Bedürfnisse: den Austausch mit Partnern (Lieferanten, Kunden, Wettbewerbsgruppierungen) optimieren, administrative Anforderungen erfüllen (behördliche Anmeldungen, Audits, DSGVO),
    • die entstehenden Bedürfnisse: verborgene Informationen zum Sprechen bringen, schwache Signale erkennen,
  • Bereinigung und Formatierung der Informationsmenge, die durch die von den Mitarbeitern genutzten Prozesse, Software und Maschinen erzeugt wird ;
  • die optimierte Architektur, in der Regel on-premise, und dann das Laden der Informationen in die Basis nur dann, wenn sie an den im Vorfeld spezifizierten Bedarf angepasst sind, um :
    • angereicherte und qualitativ hochwertige Informationen zu produzieren, die schnell für die betriebliche Berichterstattung oder die Entscheidungsanalyse genutzt werden können,
    • die Nutzung der Speicherinfrastruktur zu maximieren,
    • Sicherheitsanforderungen wie die Anonymisierung von Daten zu erfüllen.

ETL oder ELT?

Natürlich wird Ihnen nicht entgangen sein, dass Big Data und die Cloud die Herangehensweise an Informationen, ihren Nutzen und ihre Monetarisierung revolutioniert haben. Auch hier versuchen ETLs, ihre Waffen zu strecken, um mit diesen hyperskalierbaren Systemen zusammenarbeiten zu können.

Dies ist jedoch keine leichte Aufgabe, und wenn Sie ein exponentielles Wachstum Ihrer Daten erlebt haben, könnten die Versuche der ETL-Verarbeitung die Grenzen dieses Prinzips aufzeigen.

Diese Tatsache hat der ELT (Extract Load Transform), einem verwandten Verfahren der Datenintegration, neuen Aufschwung verliehen:

  1. Die Informationen werden in ihrer Rohform gespeichert,
  2. dann wird sie umgewandelt,
  3. und schließlich zur Verfügung gestellt.

Man nutzt also die Leistung der Plattform, auf der die Daten gespeichert sind, anstatt zwischengeschaltete Server zu verwenden.

Das ELT in Verbindung mit einem hochskalierbaren Datalake hat also den Vorteil, dass die Rohdaten, die ein beträchtliches Volumen darstellen, warmgehalten werden. Sie werden in nahezu Echtzeit ausgetauscht, sind frei von Transformationsspezifikationen und können von Data Scientists erforscht werden. Sie werden daraus neue Erkenntnisse gewinnen, neue Bedürfnisse wecken und letztlich neue Gewinne erzielen.

Die Welten von ETL und ELT können heute nur noch zusammenwachsen, sei es durch die Existenz von Tools, die eine Hybridisierung ermöglichen, oder durch Konzepte wie die Datenvirtualisierung.

Welches ETL-Tool sollte man wählen? Liste von ETL

Die Auswahl ist in diesem Bereich besonders groß. Um sich zurechtzufinden, hier ein Vorschlag für eine schnelle Klassifizierung :

Art des ETL-ToolsBeispiele für ETL
Die Mastodons
  • Informatica Powercenter - ETL per Definition, und noch mehr.
  • IBM Infosphere Datastage - Gigant der Informationstechnologie.
  • SAP Data Services - Fest verankert in ERP und Entscheidungsfindung.
  • Microsoft SSIS - Sie haben bereits einen Fuß in der Azure-Cloud.
  • Oracle Data Integrator - ETL par excellence.
Die Neuen
  • Qlik Replicate - Integration für die Entscheidungsfindung.
  • Denodo - Die Data Virtualization.
Die Open-Source-ETLs
  • Talend Open Studio for Data Integration - sowohl ETL als auch ELT.
  • TIBCO Jaspersoft - ETL und Reporting.
  • Pentaho Data Integration
Cloud-basiert und No-Code
  • Xplenty - Cloud-Orientierung und Salesforce-Spezialisierung
  • Skyvia - No-code und BigData
  • Hevo - No-code und BigData

Schlussfolgerung

Von "kostenlosem" Open-Source bis hin zu den teuersten Lösungen, alle erfüllen zumindest diese grundlegenden Probleme:

  • Informationen aus verschiedenen Systemen integrieren
  • Die Informationen bereinigen, um sie zu homogenisieren.
  • Diese Informationen den Nutzern zur Verfügung stellen.

Aber alle haben auch ihre eigenen Besonderheiten, um so genau wie möglich auf Ihre Bedürfnisse zugeschnitten zu sein. Die ETL-Welt ist voller Nuggets, von den umfassendsten historischen Lösungen über die "No-Code"-Lösungen bis hin zu den Cloud- und Echtzeitspezialisten. Die Konzentration auf diesem sich erneuernden Markt ist noch lange nicht abgeschlossen.

Artikel übersetzt aus dem Französischen