Datensee
Ein Data Lake ist ein zentraler Ort in einer Cloud-Architektur, der große Mengen an Rohdaten in ihrem nativen Format speichern kann. Im Gegensatz zu Data Warehouses oder Silos verwenden Data Lakes eine flache Architektur mit Objektspeicher, um Metadaten für Dateien zu verwalten.
Der Begriff „Data Lake“ wurde 2015 geprägt, das Konzept wird jedoch bereits seit mehr als 10 Jahren in der Praxis eingesetzt. Data Lakes erfüllen den Bedarf an einem skalierbaren Datenspeicher, der große Mengen von Dateien unterschiedlicher Typen und Quellen für die spätere Analyse speichern kann.
Man kann sich einen Datensee als einen zentralen Ort vorstellen, der Petabyte an Daten in ihrem ursprünglichen, nativen Format speichert. Im Vergleich zu hierarchischen Data Warehouses, die Daten in Dateien und Ordnern speichern, verwenden Data Lakes eine flache Architektur mit objektbasiertem Speicher. Bei Big Data-Vorgängen können Metadaten-Tags und -Kennungen verwendet werden, um das Auffinden und Abrufen von Daten über Regionen hinweg und mit besserer Leistung zu erleichtern. Darüber hinaus wird die Verwendung eigener Datenformate für mehrere Anwendungen unterstützt.