Каждый инженер данных и специалист по данным должен знать

Данные подобны океанской воде, обширны и необходимы.

Критичны ли данные? Конечно. Сегодня каждая компания и бизнес управляется данными.

Важны или ценны данные? Да или нет. Как известно, мусор на входе, мусор на выходе для машинного обучения и информатики. Некачественные данные могут быть бесполезными для бизнеса, но их обработка и управление обходятся дорого.

Теперь «данные необходимы» становится «качество данных имеет важное значение».

Как и в случае с разработкой через тестирование (TDD), с которой вы знакомы, вы бы сказали, что данные, ориентированные на качество (QDD), незаменимы. Разработка через тестирование — это ядро ​​современной разработки программного обеспечения, DevOps и автоматизации CI/CD. Точно так же данные, ориентированные на качество, являются душой разработки данных и инноваций в области данных.

Почему? Как? Что?

Почему определение качества данных кажется печально известным. Тогда как определить качество данных? Что такое качество данных? И как обеспечить целостность данных, ориентированных на качество?

Существует много определений качества данных, но наиболее явно подразумевают высокое качество данных и одно определение для всех. Это может не соответствовать высокому качеству, хотя это основная цель данных. Это может быть не совсем то же самое, хотя никто не может игнорировать это сейчас. Итак, я предложу следующее утверждение, прежде чем двигаться дальше:

Качество данных — это состояние данных в жизненном цикле данных, которое можно определить в градусах.

Мы можем определить качество данных, разработав предметные области, категории, жизненный цикл и степени качества.

Домены данных

Где нам нужно качество данных? Если бы вы везде отвечали лучшим, возможно, вы получили бы незабываемый урок о данных или никогда не использовали бы данные всерьез.

Качество данных зависит от предметной области, а не от общего или одинакового везде. Он чувствителен и становится значимым в шести областях: бизнес-операции, анализ данных, управление данными, управление данными, проектирование данных и наука о данных.

Деловые операции

Существует две основные категории бизнес-операций с данными: OLTP и OLAP. Данные для OLTP обычно хранятся в реляционной базе данных или NoSQL, но данные для OLAP обычно хранятся в хранилище данных, озере данных или хранилище данных. Дополнительную информацию см. в разделе Современные базы данных и будущее данных. Ожидания в отношении качества данных сильно различаются из-за различных потребностей бизнеса и технологий. Разница может заключаться в перспективе и глубине бизнеса и операций.

Аналитика данных

Аналитика данных включает в себя бизнес-аналитику, прогнозную аналитику и многое другое. Это позволяет данным принимать бизнес-решения. Точность, полнота, согласованность и своевременность данных имеют решающее значение для принятия правильных решений. Они лежат в основе качества данных.

Инжиниринг данных

Инжиниринг данных — это область и принципы построения систем данных для прохождения данных от создания до удаления. Это основа современного стека данных. Качество данных должно быть частью инженерии данных. Усилия по обеспечению качества данных должны выходить за рамки точности, полноты, согласованности и своевременности. Он признает важность наблюдаемости, обнаруживаемости и управляемости данных.

Наука о данных

Наука о данных — это междисциплинарная область для извлечения знаний из обычно больших наборов данных и применения знаний и идей из этих данных для решения проблем в широком диапазоне областей применения. Это ядро ​​машинного обучения. Качество данных — основа науки о данных. Происхождение данных, семантика и статистика стали первоклассными гражданами для качества данных в науке о данных.

Управление данными

Управление данными — это дисциплина управления данными как ценным ресурсом. Качество данных — это область управления данными, которая в основном фокусируется на использовании данных. Он предназначен для контроля качества данных, например для управления данными. С другой стороны, свойства и особенности управления данными влияют на качество данных с точки зрения пользователя.

Управление данными

Управление данными — принцип управления данными как активом в течение их жизненного цикла. Это механизм, обеспечивающий безопасность, конфиденциальность, точность, доступность и удобство использования данных. Качество данных является частью управления данными. Но это повышает качество данных по сравнению с технологиями (например, проектирование данных и наука о данных) для организаций и нетехнических людей. Он может сбалансировать приоритеты между качеством данных и соответствием требованиям (включая безопасность и конфиденциальность). Возможно, ему придется пожертвовать качеством данных в пользу конфиденциальности и безопасности. Это может потребовать точности и последовательности в языке бизнеса, а не технических.

Управление данными как активом можно расширить до общей концепции активов данных. Этот домен включает обмен данными, торговлю и обмен в качестве цифровых активов. Например, данные, созданные с помощью NFT, являются цифровым активом, который можно использовать в метавселенной. Качество данных здесь рассматривает уникальность, идентичность и целостность.

Категории данных

Определение качества данных зависит от потребностей бизнеса и приложений. Как правило, это больше ориентировано на бизнес, чем на технологии. Это означает, что качество зависит от потребностей бизнеса. В противном случае он стал бы бледным для качества данных.

Качество данных должно быть ожидаемым и определяться по-разному в отдельных категориях данных, таких как розничная торговля, производство, логистика, медицина и т. д. Благодаря уникальности каждой категории ее можно дополнительно уточнить в соответствии с классификациями данных и соответствием требованиям.

Например, AlphaFold от DeepMind — это прорыв в изучении белковой структуры с огромным объемом данных. Розничная торговля Amazon также имеет массивные данные об операциях и аналитике. Но объем и ожидаемое качество данных для обоих различны с точки зрения своевременности, полноты, управляемости и многого другого.

Жизненный цикл данных

Неизменны ли требования к качеству данных на протяжении всего жизненного цикла данных?

Любые данные имеют жизненный цикл от создания до сбора, использования и удаления. В жизненном цикле чем раньше, тем лучше для качественных данных. Однако требования и охват качества данных должны различаться на разных этапах жизненного цикла. В большинстве случаев качество данных становится жизненно важным или значимым на этапе использования. Это не означает, что мы не должны заботиться о качестве данных с момента их зарождения или не должны поддерживать одинаково высокое качество на протяжении всего жизненного цикла.

Но мы должны понимать цель качества данных. Это необходимо иметь в виду при проектировании в технике и соблюдении требований.

Например, своевременность менее секунды имеет решающее значение для принятия решения о масштабируемости или обеспечения удобного взаимодействия с пользователем на розничном веб-сайте при использовании данных. Но может оказаться ненужным иметь те же критерии для архивирования тех же данных позже.

Степени качества данных

Качество данных может быть определено в градусах. Мне нравится выражать в градусах, а не в метриках или размерах, поскольку это требует качественного или количественного. И она может быть более измеримой для каждой степени, исчисляемой в степенях, аналитической для степеней, коррелятивной между степенями и накопительной по степеням. Существует два уровня качества данных: фундаментальное качество и ученая степень качества.

Основные степени качества

Необходимы фундаментальные степени качества данных. Существует четыре основных степени качества: точность, полнота, последовательность и своевременность.

  1. Точность: точные данные, как определено, включая содержание данных (или значение), точность и метаданные, хотя мы часто забываем о точности и метаданных.
  2. Согласованность: одни и те же определенные данные по ссылкам, пайплайнам, происхождению, системам и организациям.
  3. Полнота: отсутствие пропущенных записей или значений. Но это может быть другая история для некоторых крупномасштабных разреженных данных в глубоком обучении.
  4. Своевременность: актуальные данные и своевременная обратная связь от обслуживания. Это становится все более важным для больших данных и машинного обучения.

Качественные ученые степени

Ученая степень по качеству данных также важна, но она появилась недавно или лучше подходит для некоторых конкретных областей. Существует девять продвинутых степеней качества: уникальность, достоверность, релевантность, эффективность, наблюдаемость, обнаруживаемость, управляемость, семантика и целостность. И со временем его можно расширить в соответствии с предметными областями и категориями.

  1. Релевантность: релевантные данные для удовлетворения бизнес-требований.
  2. Эффективность: эффективность обработки данных и машинного обучения с учетом объема, разнообразия и скорости передачи данных.
  3. Семантика: семантическая информация для наборов данных, столбцов, строк и даже записей. Эта степень может расширить семантику для происхождения данных, происхождения и отношений.
  4. Уникальность: уникальность данных — это степень, позволяющая свести к минимуму дублирование и перекрытие всех записей в наборе данных или между наборами данных.
  5. Достоверность: достоверность данных — это степень, в которой значения данных соответствуют бизнес-правилам. Это не то же самое, что точность или полнота.
  6. Наблюдаемость: возможность наблюдения за данными, связанная с видимостью, мониторингом и отладкой. Встроенная статистика данных и метрики должны быть частью этого. Все больше и больше современных облачных решений поддерживают именно это. Например, Delta Lake считает некоторые статистические данные и добавляет их к данным при сохранении, как Apache Parquet.
  7. Обнаруживаемость: возможность обнаружения данных, связанная с простотой интеграции, совместного использования и использования.
  8. Управляемость: степень зрелости управления данными с упором на соответствие данных.
  9. Целостность: степень целостности данных. Этот термин, кажется, пересекается с фундаментальной точностью и согласованностью, но он подчеркивает жизненный цикл данных против повреждения данных.

TL;DR

Данные, ориентированные на качество (QDD), — это принцип сбора, использования и уничтожения данных. Благодаря этому мы можем определять качество данных в градусах, улучшать процесс принятия решений и качество машинного обучения, а также заранее предотвращать непредвиденные проблемы. Качество данных является высоким в контексте предметных областей и категорий данных. Существует две группы степеней качества для целостного определения качества данных.

Таким образом, качество данных является сложным, но выполнимым. Определение по степеням является правильным в отношении жизненного цикла данных и категорий. Его можно эффективно внедрить и улучшить с помощью практики обработки данных, ориентированной на качество, или качества как инфраструктуры за счет интеграции с управлением данными или другими областями данных.

Вопросы, мысли, идеи? Свяжитесь с Luhui Hu в LinkedIn!