В современном мире данных важность данных возросла в геометрической прогрессии, и организации тратят огромное количество времени и денег на новые технологии, которые позволяют фирмам быстро обрабатывать и понимать данные.

С увеличением объема данных обработка данных (ETL-Extract Transform and Load или ELT-Extract Load and Transform) и анализ (аналитика данных, наука о данных и машинное обучение) становится все более и более трудоемким, и компании выходят за рамки традиционных архитектур данных, чтобы удовлетворить свои аналитические потребности по требованию.

Delta Lake — одно из таких решений, которое обеспечивает значительное улучшение по сравнению с традиционными архитектурами данных. Это уровень хранения с открытым исходным кодом, который обеспечивает транзакции ACID и обработку метаданных. Он также объединяет пакетные и потоковые данные для построения аналитики практически в реальном времени.

Вот несколько ключевых преимуществ Delta Lake

• С легкостью обрабатывает большие объемы данных (терабайты и даже петабайты)
• Унифицированная пакетная и потоковая обработка с транзакциями ACID (атомарность, согласованность, изоляция, надежность)
• Дельта позволяет средства записи данных могут очень легко выполнять операции удаления, обновления и обновления, не мешая запланированным заданиям по чтению набора данных
• Delta записывает все без исключения действия, выполняемые над таблицей Delta Lake с момента ее создания. Это позволяет пользователям запрашивать более ранний моментальный снимок данных (путешествие во времени или версия данных)
• Delta Enforces Schema и предотвращает неправильные записи.
• Поддерживает несколько языков программирования и API
• Delta Lake — это основа экономичного и легко масштабируемого домика у озера.

Итак, давайте перейдем к архитектуре и подробно рассмотрим каждый этап архитектуры (слева направо).

Компоненты архитектуры Delta Lake

Теперь давайте возьмем образец файла данных и посмотрим, как данные преобразовываются на каждом этапе архитектуры.

мы будем использовать этот CSV-файл и посмотрим, как данные переходят из необработанного состояния (бронза) → тщательно отобранное состояние (серебро) → более значимое состояние (золото).

• Конвейер Фабрики данных Azure для копирования CSV-файла из локальной файловой системы в хранилище Azure Data Lake (бронза)
• Подключение Azure Data Lake к файловой системе Databricks (DBFS).

• Azure Data Bricks для чтения. CSV-файл из версии Bronze, примените
преобразования, а затем запишите его в таблицы Delta Lake (серебро)
• В версии Silver прочтите таблицу delta Lake и примените агрегирование, а затем запишите ее в таблицы Delta Lake. (Gold)
• Теперь пользователи могут подключаться к таблицам Silver или Gold для анализа своих данных (отчетность BI или машинное обучение).

Я надеюсь, что вам понравилось читать эту статью, вы увидите Delta Lake в действии в моей следующей статье, а пока поблагодарите и наслаждайтесь праздничным сезоном.