DataLake — озеро данных

DataLake (в пер. «озеро данных») — это метод хранения данных системой или репозиторием в натуральном (RAW) формате, который предполагает одновременное хранение данных в различных схемах и форматах. Обычно используется blob-объект (binary large object) или файл. Идея иметь логически определенное, единое хранилище всех данных в организации (enterprise data) начиная от сырых, необработанных исходных данных (RAW data) до предварительно обработанных (transformed) данных, которые используются для различных задач: отчеты, визуализация, аналитика и машинное обучение.

Data Lake включает структурированные данные из реляционных баз данных (строки и колонки), полуструктурированные данные (CSV, лог файлы, XML, JSON), неструктурированные данные (почтовые сообщения, документы, pdf) и даже бинарные данные (видео, аудио, графические файлы).

Data Warehose VS DataLake

Основное отличие:

  • Data Warehose - храните уже обработанные данные
  • DataLake - храните еще обработанные данные
хранилище данных
озеро данных

Data Lake кроме методов хранения и описания данных, предполагает определение источников и методов пополнения данных. При этом используются следующие термины:

  • источники – sources;
  • настройки каналов – pipelines;
  • регулярность обновлений – schedulers;
  • владельцы – custodians;
  • время хранения – retention time;
  • метаданные – другие “данные о данных”.

Data Lake может использовать единый репозиторий в качестве хранилища данных (HDFS, EDW, IMDG, Cloud и т.д.) либо использовать модульную концепцию источников хранения данных для разных требований по безопасности, скорости, доступности при соблюдении условий хранения данных: неизменяемые RAW данные, согласованное время хранения (retention time), доступность.


03.03.2011 17:52