データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。

適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される。

背景

Pentaho のCTOであるJames Dixonが、データマートと対比してこの概念を提唱したと主張している。彼はデータマートにおけるデータのサイロ化などの問題点を指摘し、データレイクの必要性を説いている。PWCコンサルティングは"データレイクはデータのサイロ化の対策となりえる"と発言している。

脚注

関連項目

  • データウェアハウス
  • データマイニング

データレイクとは? ~DWHとの違い、メリット、活用例などをわかりやすく解説~ Azure導入支援デスク

データレイクとクラウドサービス ~①データレイクの今までをおさらい~ GiXo Ltd.

データレイクの概念について理解する connecting the dots

データレイクとは?メリットやDWHとの違い、意外と陥る罠をわかりやすく解説 TROCCO®(トロッコ)

データレイクの概念について理解する connecting the dots