Data Lake: Speichern Sie Ihre Daten, ohne in einem See aus Daten zu ertrinken.
In einer Zeit, in der die Menge an Informationen, die ein Unternehmen generiert, von Jahr zu Jahr um 50 bis 150% wachsen kann, ist es nur logisch, dass man diese Informationen bestmöglich nutzen und daraus den größtmöglichen Nutzen ziehen möchte.
Die für die Verwaltung von Big Data erforderlichen Infrastrukturen und Architekturen schrecken jedoch noch viele Unternehmen ab, insbesondere das, was oft als ihr Herzstück definiert wird: der Data Lake.
Was ist ein Data Lake? Was ist der Unterschied zu einem Data Warehouse? Welche Data-Lake-Lösungen sollte man wählen? Antworten in diesem Artikel.
Was ist ein Data Lake? Definition
Ein Data Lake oder Datensee kann in erster Linie als ein Reservoir von Rohdaten definiert werden, die am Rande qualifiziert werden und in strukturierter oder unstrukturierter Form vorliegen. Diese Daten können sein :
- Extraktionen aus relationalen Datenbanken,
- Bilder,
- PDFs sein,
- Feeds oder Events aus Geschäftsanwendungen,
- halbstrukturierte CSV-Dateien oder Logs usw.
Warum sollte man einen Data Lake verwenden? Vorteile des Data Lake
Die erste Aufgabe des Data Lake wird die Massenaufnahme dieser Rohdaten sein, um ihre Historie für zukünftige Bedürfnisse zu bewahren:
- Analyse von Verhaltensentwicklungen (eines Kunden oder einer Anwendung),
- prädiktive KI-Engine oder Machine Learning,
- oder, pragmatischer, die Monetarisierung dieser Informationen bei neuen Partnern.
Zu diesem Hauptmerkmal kommen weitere wichtige Kriterien hinzu wie :
- seine Strukturierung, um es navigierbar zu machen und einen Datensumpf (data swamp) zu vermeiden,
- seine Elastizität, die es ihm ermöglicht, in Bezug auf Speicherplatz und Rechenleistung mit hoher Geschwindigkeit zu wachsen (und theoretisch auch wieder zu schrumpfen),
- seine Sicherheit, die die ordnungsgemäße Verwendung der Daten garantiert.
Data Lake, Data Warehouse: Wo liegt der Unterschied?
Im Gegensatz zum Data Lake besteht das Hauptziel des Data Warehouse darin, verfeinerte Daten für einen bestimmten, wiederkehrenden Bedarf zu erhalten, die eine starke Aggregationsleistung erfordern und die es ermöglichen, Berichts- und Analyseanwendungen und manchmal auch neue Geschäftsanwendungen zu bedienen.
Da die Kosten pro gespeichertem Terabyte jedoch mehr als zehnmal so hoch sind, stößt das Data Warehouse als Eckpfeiler der Daten im Unternehmen an seine Grenzen.
Wie kann man das Beste aus beiden Welten nutzen?
Welche Data-Lake-Lösungen sollten in Betracht gezogen werden?
Viele große Unternehmen, die große Summen in ihr Data Warehouse investiert haben, haben sich für einen sanften Übergang zum Data Lake entschieden, mit einer On-Premise-Lösung und der maßgeschneiderten Zusammenstellung einer Reihe von Tools, um den Data Lake zu verwalten.
Eine On-Premise-Lösung wie der Hadoop Data Lake.
Die Apache-Stiftung hat das Open-Source-Framework Hadoop bereitgestellt, das Herzstück der Fähigkeiten des Data Lake, durch Parallelisierung und Verteilung des Speicherprozesses massenhaft zu inkorporieren.
Dieses Framework ist mit sehr vielen Open-Source-Tools angereichert, die die Einrichtung des Data Lake (finanziell) erschwinglich gemacht haben:
- Kafka für die Ingestion,
- Yarn für die Verteilung der Ressourcen,
- Spark für die Hochleistungsverarbeitung,
- MongoDB als NoSQL-Basis,
- ElasticSearch und Kibana für die Indexierung von Inhalten und die Wiedergabe,
- und eine Fülle anderer Tools (Graphbasen, Auditing, Sicherheit), die aufkommen und manchmal wieder verschwinden, während sich dieser Markt konzentriert.
Letztendlich können die Vielzahl der Tools und die Möglichkeit, sich eine hochgradig personalisierte Umgebung zu schaffen, zu sehr hohen Anschaffungskosten führen, insbesondere wenn man auf eine Technologie mit ungewisser Zukunft gesetzt hat.
Daher kann man logischerweise Paketlösungen wie Cloudera vorziehen, das Hortonworks geschluckt hat und eine Open-Source-Distribution beibehalten hat, aber natürlich ein besser unterstütztes Bezahlmodell anbietet.
Eine starke Partnerschaft mit IBM zielt im Übrigen darauf ab, starke On-Premise-Lösungen zu liefern.
Da MapR 2019 von Hewlett Packard Enterprise übernommen wurde, wird es in HPE GreenLake integriert, eine Cloud-Lösung, die darauf abzielt, mit den Giganten Amazon, Microsoft, Google oder auch Oracle zu konkurrieren, die ihre Partnerschaften, Übernahmen und Neuentwicklungen vermehren, um Cloud-Plattformen aufzubauen, die mit den besten On-Premise-Tools zur Datenanalyse konkurrieren können.
Eine Cloud-Lösung wie der Data Lake AWS oder Azure
Amazon AWS, Microsoft Azure, Google Big Query oder Oracle Cloud Infrastructure Data Flow integrieren alle mehr oder weniger ausgereifte Tools für das Datenmanagement (Migration, Lineage, Tracking) und die Analyse (Echtzeittransformation, Aggregation, klassische Analyse oder KI-Modelle), aber diesmal in der Cloud.
Der große Vorteil der gepoolten Cloud besteht darin, dass die Hardwarefrage beiseite geschoben wird, die bei einem erwarteten starken Datenwachstum schnell Kopfzerbrechen bereiten kann.
Allerdings hat die enthemmte Cloud mit Fällen von Massenhacking einige Grenzen aufgezeigt. Die Private Cloud von IBM bietet die Möglichkeit, die Integrität Ihrer Daten (gewerbliches Eigentum, vertrauliche Verträge usw.) zu gewährleisten, und die Lösung Azure Stack bietet eine On-Premise-Version der wichtigsten Microsoft-Tools in diesem Bereich.
Auch Teradata, ein weiterer Weltmarktführer im Bereich Data Warehousing, hat den Wechsel zu einer Cloud-Lösung eingeleitet, um die Kundenbasis wiederzugewinnen, die durch die Kosten für seine leistungsstarken On-Premise-Server abgestumpft ist.
Die Herausforderung einer guten Regierungsführung
Alle Lösungen haben ihre Vor- und Nachteile. Sie sollten daher die Verpflichtungen Ihres Unternehmens gegenüber seinen Kunden (DSGVO, Industrie- oder Berufsgeheimnis) nicht aus den Augen verlieren und sie gegen diese Suche nach Elastizität abwägen, die erhebliche strukturelle und menschliche Kosten verursachen kann.
Die Bewertung dieses Gleichgewichts muss Teil der wichtigsten Aufgabe der Data Governance sein, die den Data Lake definieren und strukturieren muss und somit :
- Bereitstellung eines menschlichen, technischen und technologischen Rahmens für die Data Engineers, die täglich mit Terabytes an Daten umgehen werden.
- die Untersuchungsarbeit der Data Scientists für ihre KI- und Machine-Learning-Engines erleichtern.
- den Nutzern ermöglichen, ihre Quellen zurückzuverfolgen und zu validieren, um die Ergebnisse ihrer Analysen zu gewährleisten.
Diese Governance wird es ermöglichen, die tatsächlichen Bedürfnisse Ihres Kerngeschäfts zu erfassen und gleichzeitig eine erweiterte Nutzung der Daten zuzulassen. Die Ziele:
- Neue Nutzungsmöglichkeiten und ein neues Verständnis von Daten entstehen zu lassen,
- Ihren Kunden die Vorteile einer größeren Reaktionsfähigkeit und sogar Antizipation bei voller Sicherheit bieten.
Eine gute Governance kann auf den ersten Blick komplexe Architekturen hervorbringen, die jedoch sowohl in technischer als auch in finanzieller Hinsicht lebensrettend sind.
Die Wahl des Data Mesh für einen erfolgreichen Übergang zu Big Data
Wenn sich der Data Lake als nützlich erweist, bedeutet dies nicht zwangsläufig, dass die anderen Datenverwaltungsstrukturen verschwinden: Vom vorgelagerten Data Swamp über das nachgelagerte Data Warehouse und die Datamarts bis hin zum Dialog mehrerer dieser Strukturen in einem internationalen Kontext kann eine gute Data Governance im Gegenteil die Palette der Werkzeuge erweitern.
Durch die Förderung des Dialogs zwischen diesen Elementen der Datenspeicherung und -verarbeitung wird das Unternehmen den größtmöglichen Nutzen aus jedem einzelnen ziehen:
- Historische Systeme, die als unverzichtbar und zuverlässig gelten, werden ihre Arbeit fortsetzen.
- und können von den Vorteilen des Data Lake profitieren, z. B. für die Archivierung oder Archivierung kalter Daten, die Sicherung von Rohquellen, die eine bessere Prüfung und eventuelle Nacharbeit ermöglichen, usw.
Diese Datenvernetzung (englisch: data mesh ) im Rahmen einer starken Governance kann verhindern, dass ein Unternehmen eine vorhandene Infrastruktur durch eine Umstellung auf die Datenhaltung verschwendet.Das bedeutet, dass das Unternehmen sich nicht auf eine Migration "ganz Datensee" oder gar "ganz Cloud" einlassen sollte, die manchmal nicht durchführbar und oftmals ungeeignet ist.
Das Data Mesh wird dann eine Garantie für die Akzeptanz und den Erfolg des Übergangs zu Big Data sein.