データレイクは、大規模な非構造化データ(正規化や統合などを行っていないオリジナルのデータ)を保管するためのストレージ領域を指します。データレイクには、フラットファイルシステムをサポートするコンピューターからメインフレームまで、様々なマシンを活用できます。ここでのデータの操作(データを構造化するなど)は、他のサーバーにデータを転送して実行されます。SNSやIoTから膨大な量のビッグデータが生まれる現代では、Hadoop Distributed File System(HDFS)等のツールを用いて、データ処理の高速化が図られます。
![](https://open-insight.net/glossary/wp-content/uploads/sites/2/2024/04/9-11-16-93-1-860x430.png)