数据湖是云架构中的一处中心位置,能够存放大量原生格式的原始数据。数据湖不同于数据仓库或孤岛,其利用搭载对象存储的扁平架构来维护文件的元数据。
「数据湖」一词是在 2015 年提出的,但这个概念投入实践应用已超过 10 年。数据湖可满足可扩展数据存储库的需求,后者可存储大量各种类型和来源的文件,供日后分析。
数据湖可视为集中位置,能够保留原始、原生格式的 PB 级数据。与可将数据存储在文件和文件夹的分层数据仓库相比,数据湖利用的是搭载基于对象之存储的扁平架构。大数据运营可通过元数据标记和标识符,更轻松地跨区域查找及检索数据,而且性能更佳。此外,还支持多个应用利用各自的数据格式。