Du möchtest wissen, was ein Data Lake genau ist und welche Chancen er für Unternehmen bereithält? Hier und im Video erfährst du es!

Inhaltsübersicht

Was ist ein Data Lake?

Ein Data Lake (deutsch: „Datensee“) beschreibt in der Informatik einen sehr großen Speicher, in dem Daten in ihrem Rohformat gespeichert werden. Das bedeutet, dass ein Data Lake auch unstrukturierte Daten wie Bilder oder Videos aus den verschiedensten Quellen problemlos aufnehmen kann.

Data Lake, Datalake, Data Lakes, Data Lake Definition, what is a data lake
direkt ins Video springen
Data Lake

Damit kann ein Data Lake einem Unternehmen einen großen Wettbewerbsvorteil verschaffen.

Beispiel: Ein Unternehmen könnte in einem Data Lake all seine Verkaufstransaktionen analysieren. Dabei können Logdateien, Kundenmeinungen oder Daten aus Clickstreams und sozialen Medien mit einbezogen werden. So wird es leichter, personalisierte Werbung zu schalten oder Preise festzulegen.

Data Lake vs. Data Warehouse

In Bezug auf die Speicherung großer Datenmengen („Big Data“ ) fällt oft nicht nur der Begriff Data Lake, sondern auch Data Warehouse.

Das liegt daran, dass Data Lakes und Data Warehouses ähnlich genutzt werden:

  • Sie sind beide Speicherrepositories für große Datenmengen.
  • Sie fungieren beide als zentralisierter Speicher, der Daten an unterschiedliche Anwendungen weitergibt.

Allerdings unterscheiden sie sich fundamental in ihren Konzepten und der Art der Datenspeicherung:

  • Data Lakes:
    Ein Data Lake nimmt Daten aus unterschiedlichen Quellen in ihrem Rohformat auf und legt sie unstrukturiert ab. Der Data Lake muss außerdem nicht den Analysezweck der Daten kennen. Denn erst, wenn die Daten tatsächlich benötigt werden, erfolgt die Suche, Strukturierung und Umformatierung.

  • Data Warehouses:
    Ein Data Warehouse speichert dagegen in der Regel strukturierte Daten wie Kennzahlen oder Transaktionsdaten ab. Hier ist der Analysezweck auch schon im Vorhinein bekannt. Das Data Warehouse führt die Daten aus unterschiedlichen Quellen zusammen und überführt sie vor der Ablage in passende Formate und Strukturen. Nicht benötigte Informationen löscht es direkt. Damit erlaubt ein Data Warehouse eine direkte Analyse.
Data Lake, Datalake, Data Lakes, Data Lake Definition, what is a data lake, Data Lake vs Data Warehouse, Data Warehouse vs Data Lake
direkt ins Video springen
Data Lake vs Data Warehouse

Hier findest du nochmal alle wichtigen Unterschiede auf einen Blick:

  Data Lake Data Warehouse
Datenstruktur roh verarbeitet
Zweck der Daten noch nicht festgelegt bekannt
Datenaufbereitung erst, wenn die Daten benötigt werden vor der Ablage
Benutzer Data Scientists Business-Anwender
Zugänglichkeit für Benutzer komplex, Nutzer muss sich mit den unterschiedlichen Datenarten und ihren Beziehungen auskennen einfach, da strukturiertes Schema
Flexibilität passt sich leicht an Veränderungen an durch definiertes und strukturiertes Schema nicht flexibel

Data Lakes: Chancen und Herausforderungen

Aufgrund seiner flexiblen Eigenschaften bieten Data Lakes viele Chancen für ein Unternehmen:

  • Schnelligkeit: Da die Daten in ihrem Ursprungsformat gespeichert werden können, sind die Speichervorgänge sehr schnell. Es ist keine vorherige Strukturierung oder Umformatierung nötig. So können beispielsweise Daten aus dem Internet in Echtzeit gespeichert werden.

  • mehr Auswertungsmöglichkeiten: Der Data Lake nimmt sämtliche Daten auf, ohne ihren Zweck bestimmt zu haben. Er sortiert also noch keine Daten aus. Somit schränkt er die Analysemöglichkeiten nicht schon bei der Datenspeicherung ein.

  • Flexibilität: Da keine Struktur vorgegeben ist, lassen sich Data Lakes schnell an Veränderungen anpassen.

  • Kombination verschiedener Daten: Da ein Data Lake sehr unterschiedliche Daten zusammenbringen kann, sind aussagekräftigere und tiefer gehende Analysen möglich. Diese können zu einem Wettbewerbsvorteil führen.

Aber bei all den Chancen gibt es auch einige Herausforderungen:

  • hohe Nutzeranforderung: freie Analysen können meist nur von Experten durchgeführt werden, die die Struktur und Zusammenhänge der Daten kennen.

  • erhöhte Sicherheitsanforderung: Je mehr Daten gespeichert werden und je mehr Zusammenhänge sich zwischen den Daten herstellen lassen, desto besser müssen sie geschützt werden. Deshalb benötigt ein Data Lake durchdachte Sicherheits- und Datenschutzkonzepte. Im Zuge dessen sollten beispielsweise nicht alle Nutzer die gleichen Zugriffsrechte bekommen.

  • Intakthaltung: Eine große Herausforderung der Data-Lake-Architektur besteht darin, dass Rohdaten ohne Übersicht über den Inhalt gespeichert werden. Um die Daten nutzbar zu machen, muss ein Data Lake deshalb über definierte Mechanismen zum Katalogisieren und Sichern von Daten verfügen. Sonst können Daten womöglich nicht gefunden werden. Der Datensee wird dann zu einem Datensumpf.
Definition: Datensee (Data Lake) und Datensumpf

Ein Data Lake (deutsch: Datensee) ist in der Informatik ein Repository, das unstrukturierte Daten in ihrem Rohformat aufnimmt. Wenn keine regelmäßigen Datenqualitäts- und Data-Governance-Maßnahmen durchgeführt werden, wird er zu einem Datensumpf.
In einem Datensumpf sind die Daten aufgrund fehlender Metadaten, gebrochener Beziehungen und mangelhafter Organisation nicht mehr sinnvoll für Analysen nutzbar.

CRISP DM

Aber nicht nur die Speicherung von Daten ist wichtig, sondern viel mehr, was ein Unternehmen mit den Daten anfängt.

Die strukturierte Auswertung von Daten wird auch „Data Mining“ genannt. Dabei wird unter anderem auch das maschinelle Lernen eingesetzt, um neue Trends und Muster ausfindig zu machen. Diese Erkenntnisse aus den Daten helfen einem Unternehmen, bessere geschäftliche Entscheidungen zu treffen.

Der CRISP-DM (Cross-Industry Standard Process for Data Mining) ist ein einheitlicher Standard für die Entwicklung von Data Mining Prozessen. Er hilft Unternehmen bei der Strukturierung ihrer Data Mining Projekte. Der CRISP-DM besteht aus 6 Schritten:

  1. Aufgabendefinition
  2. Auswahl der relevanten Datenbestände
  3. Vorbereitung der Daten
  4. Auswahl und Anwendung von Data Mining Methoden
  5. Auswertung der Ergebnisse
  6. Anwendung der Ergebnisse

Möchtest du noch mehr über die einzelnen Schritte erfahren? Dann schau dir einfach unser Video zu dem Thema an!

Zum Video: CRISP DM
Zum Video: CRISP DM

Hallo, leider nutzt du einen AdBlocker.

Auf Studyflix bieten wir dir kostenlos hochwertige Bildung an. Dies können wir nur durch die Unterstützung unserer Werbepartner tun.

Schalte bitte deinen Adblocker für Studyflix aus oder füge uns zu deinen Ausnahmen hinzu. Das tut dir nicht weh und hilft uns weiter.

Danke!
Dein Studyflix-Team

Wenn du nicht weißt, wie du deinen Adblocker deaktivierst oder Studyflix zu den Ausnahmen hinzufügst, findest du hier eine kurze Anleitung. Bitte .