データレイク
From Wikipedia, the free encyclopedia
データレイク (Data lake) は構造化/非構造化データやバイナリ等のファイル含めたデータを一元的に格納するデータリポジトリ。一般的に、データレイクはレポート、可視化、分析、機械学習に利用されるエンタープライズのデータのコピーや返還後のデータを一カ所に集約する。データレイクはリレーショナルデータベースの構造化データ(列と行)や、半構造化データ(CSV、ログ、XML、JSON)、非構造化データ(Eメール、ドキュメント、PDF)、バイナリデータ(画像、音声、映像)を含めることができる。
適切に管理されておらず、ユーザが意図するデータへのアクセシビリティが低く、小さな価値しか提供できない低品質のデータレイクはデータの沼と表現される[1]。
データレイクは、データウェアハウスで典型的な schema-on-write と対比して、分析時にスキーマを適用する schema-on-read(late binding)の考え方と結び付けて説明されることが多い[2][3]。そのため、取り込み段階では生データを保持しつつ、後段で探索・分析できるようにするためのメタデータ抽出とメタデータモデル化が重要な機能となる[2][3]。
近年の研究では、データレイクの成否は単なる大容量保管ではなく、メタデータカタログ、データ品質の担保、データガバナンス、利用者ごとのアクセス制御、データの論理的・物理的な整理などをどこまで備えるかに左右されると整理されている[4][2]。これらが不十分な場合、データレイクは構造や意味が把握しにくく再利用しにくい「データの沼」に陥りやすいとされる[3][4]。