Big Data : Sprung in den Data Lake

lake jump sprung see
© pixabay

Die Verarbeitung großer Datenmengen ist komplex und aufwändig. Eine einzelne, falsch berechnete Metrik, etwa die Kosten pro Einheit, oder ein verspätetes Bereitstellen von Daten, kann gravierende Auswirkungen haben und immense Kosten nach sich ziehen. Deshalb braucht es geeignete Möglichkeiten, Daten schneller und in korrekter Form zusammenzustellen und zu verarbeiten. Hier kommen Data Lakes ins Spiel: Ein Data Lake bietet ein Depot für strukturierte und unstrukturierte Daten, verlangt für das Speichern jedoch kein festgelegtes Schema. Unternehmen müssen also nicht vorab bestimmen, auf welche Art sie die Rohdaten speichern und später analysieren wollen.

Unterschiedliche Datensätze analysieren

Mit verschiedenen Systemen und Ansätzen der Datenverwaltung unterscheiden sich die Strukturen und Informationen von Dateien. Das weiß auch Jan Metzner, Specialist Solutions Architect Manufacturing bei Amazon Web Services (AWS), zu berichten: „Dieselben Informationen werden oftmals von unterschiedlichen Systemen gespeichert – nicht selten auch mit anderer Benennung: Was in Europa beispielsweise als „Kosten pro Einheit“ (costs per unit) bezeichnet wird, heißt in den USA „Kosten pro Verpackung“ (costs per package). Hinter beiden Bezeichnungen stehen unterschiedliche Datenformate.“ In einem solchen Fall müssen beide Bezeichnungen miteinander verknüpft werden, denn nur so wissen Datenanalysten, dass sich die Informationen auf die gleichen Sachverhalte beziehen.

All diese verschiedenen Daten in einem herkömmlichem Data Warehouse zu kombinieren, ist aufwändig. „Ein Data Lake ergänzt die Möglichkeiten eines herkömmliches Data Warehouse: Unternehmen können flexibel hochstrukturierte Daten, die häufig abgerufen werden, auch in einem Data Warehouse sichern. Gleichzeitig lassen sich aber auch strukturierte, teil-strukturierte und ganz unstrukturierte Informationen in einem Data Lake speichern,“ ergänzt Metzner.

Datensilos einreißen

Viele Unternehmen nutzen Data Lakes vor allem, um Datensilos zu beseitigen. „Wenn Daten in mehreren Silos gespeichert sind und von verschiedenen Anwendergruppen kontrolliert werden, erschwert es die Nutzung. Häufig ist das der Fall, wenn Unternehmen schnell wachsen oder miteinander fusionieren“, erklärt der Experte.

Sind die Daten an verschiedenen Orten gespeichert, lassen sich zwar Probleme dezentral einfacher lösen, es erschwert jedoch die sinnvolle Verarbeitung der Informationen auf unternehmensweiter Ebene. Schließlich müssen die Daten erst manuell aus den verschiedenen Quellen zusammengetragen werden. Außerdem sind granulare Einsichten in Daten nicht möglich, denn die Zugriffe der Anwender sind mitunter auf bestimmte Bereiche limitiert. Datenanalysten profitieren vom erleichterten Zugang in Data Lakes, denn wenn die Daten im offenen Format gespeichert sind, vereinfachen sie die Arbeit mit verschiedenen analytischen Diensten und erhöhen gleichzeitig die Kompatibilität mit anderen Tools, die eventuell erst im Entwicklungsstadium sind.

Machine Learning beschleunigen

Ein zentraler Pool von Daten ist zudem eine ideale Grundlage für Machine Learning und Künstliche Intelligenz, denn diese Technologien benötigen große Mengen an Daten. Machine Learning nutzt statistische Algorithmen, um von vorhandenen Daten zu lernen und um über neue Daten Entscheidungen zu treffen – die sogenannte Interferenz. So erlauben es diese Verfahren, intelligente Entscheidungen auch bei immer neuer Datenlage zu treffen. Je größer die Datenmenge, um so besser lassen sich die Modelle trainieren. In Folge steigt die Qualität der Prognosen.

Je genauer die Vorhersagen sind, desto besser. Zu hohe und zu niedrige Schätzungen haben negative Auswirkungen auf das finanzielle Ergebnis. „Wenn die Nachfrage zu gering einschätzt wird, könnte es beispielsweise im Lager zu Engpässen bei Verpackungen führen. Das verzögert Lieferungen, führt zu Kundenbeschwerden, Stornos oder Reputationsverlust“, verdeutlicht Metzner. Durch das Überführen aller Daten in einen Data Lake können die Mitarbeiter verschiedene Datensätze kombinieren, um akkuratere Vorhersagemodelle zu trainieren und anzuwenden.

Für Metzner liegt es auf der Hand, das Speichern von Daten in einem Data Lake, einem einheitlichen Repositorium mit offenen Standard-basierten Datenformaten, bietet viele Vorteile: „Er erlaubt das Verwenden unterschiedlicher analytischer Dienste, um mehr Erkenntnisse aus den Daten zu ziehen. So lassen sich mit der Zeit immer höhere Anforderungen, Daten zu speichern oder zu verarbeiten, kosteneffizient erfüllen.“