データ レイクは、大量の生データをネイティブ形式で保存できるクラウド アーキテクチャの中心的な場所です。データ レイクは、オブジェクト ストレージを活用したフラット アーキテクチャを利用してファイルのメタデータを維持するという点で、データ ウェアハウスやサイロとは異なります。
「データレイク」という用語は2015年に提案されましたが、この概念は10年以上前から実用化されています。データ レイクは、さまざまな種類やソースの大量のファイルを後で分析できるように保存できる、スケーラブルなデータ リポジトリのニーズを満たします。
データ レイクは、ペタバイト単位のデータを元のネイティブ形式で保持できる一元化された場所と考えることができます。データをファイルやフォルダーに保存する階層型データ ウェアハウスとは対照的に、データ レイクはオブジェクトベースのストレージを備えたフラット アーキテクチャを利用します。ビッグ データ操作では、メタデータ タグと識別子を使用して、リージョン全体のデータをより簡単に、より優れたパフォーマンスで検索して取得できます。さらに、複数のアプリケーションが独自のデータ形式を利用できるようにサポートされています。