Введение: рассвет новой эры управления

Управление данными, безусловно, не новая концепция - до тех пор, пока данные были собраны, компаниям требовался определенный уровень политики и надзора за их управлением. Тем не менее, это в основном оставалось в фоновом режиме, обрабатывались ИТ-отделом и никогда не выходили на свет, поскольку компании не использовали данные в масштабах, требующих, чтобы управление данными было приоритетом.

Тем не менее, в последние несколько лет кажется, что управление данными вышло на первый план в дискуссиях как в СМИ, так и в совете директоров, поскольку предприятия делают свои первые шаги к корпоративному ИИ. Несомненно, здесь сыграло свою роль возросшее в последнее время участие правительства в обеспечении конфиденциальности данных.

Тем не менее, компании начинают понимать, что управление данными никогда не было налажено для того, чтобы справиться с массовым переходом к демократизированному машинному обучению, необходимым в эпоху искусственного интеллекта.

Традиционно данные принадлежали ИТ-специалистам, которые обеспечивали их хранение и извлечение. Нужны данные о клиентах для анализа оттока? Его необходимо запросить в ИТ-отделе. Нужно провести анализ мошенничества? Запросите данные у ИТ-отдела. Конечно, анализ принадлежит бизнес-направлениям, но в основе всего лежит ИТ-отдел, который выполняет любые запросы данных. И это было степенью управления данными.

Сегодня демократизация науки о данных на предприятии и инструментов, которые передают данные в руки многих, а не только избранной (например, специалистов по обработке данных или даже аналитиков), означает, что компании используют больше данных, чем когда-либо прежде. И это очень ценно; Фактически, компании, которые добились наибольшего успеха в использовании данных для развития бизнеса, применяют этот подход.

Но это также создает новые проблемы, а именно то, что ИТ-организации предприятий не могут справиться с требованиями демократизации данных, что создало своего рода борьбу за власть между двумя сторонами, которая замедляет общее продвижение к корпоративному ИИ. Фундаментальный сдвиг и организационное изменение в отношении нового типа управления данными, который позволяет использовать данные, а также защищает бизнес от рисков, является ответом на этот вызов и является темой настоящего официального документа.

Здесь мы рассмотрим компоненты современной программы управления данными. Хотя для их достижения могут потребоваться организационные изменения, в конечном итоге это позволит внедрить корпоративный ИИ в ответственном и устойчивом масштабе.

Управление ИИ, определение

Традиционно управление данными включает в себя политики, роли, стандарты и показатели использования информации, позволяющие компании достичь своих целей. Он обеспечивает качество и безопасность данных организации, четко определяя, кто за какие данные отвечает, и какие действия они могут предпринять и какими методами.

С развитием больших данных, машинного обучения и искусственного интеллекта возникает соблазн думать, что необходимость в хорошо продуманной стратегии управления данными является избыточной.

Конечно, вы можете получить данные в большом озере данных как можно быстрее, чтобы специалисты по обработке данных и аналитики могли согласовать их с потребностями бизнеса?

Такое мышление было бы неправильным. Потребность в управлении данными как никогда высока, поскольку каждый день организации принимают все больше решений с большим объемом данных и с большей частотой.

Не имея эффективного управления и контроля качества, все, что вы делаете, - это откладываете путь аналитикам, специалистам по обработке данных и бизнес-пользователям. Неоднократно. Причем непоследовательными способами. А это приводит к отсутствию доверия на каждом этапе конвейера данных и со стороны конечных пользователей.

Если люди в организации не доверяют данным, как они могут уверенно и точно принимать правильные решения?

Кто отвечает за управление?

Как обсуждалось во введении, более традиционные ИТ-организации исторически обращались только к части управления данными. По мере того, как предприятия вступают в эпоху демократизации данных и управления, доступа и владения становятся необходимыми, ИТ-команды часто оказываются в положении - неправильно - из-за того, что руководство также берет на себя ответственность за элементы управления информацией, которые должны принадлежать бизнес-командам.

Почему? Потому что наборы навыков для каждого из этих компонентов управления различаются. Лица, ответственные за управление данными, будут иметь опыт в архитектуре данных, конфиденциальности, интеграции и моделировании. Однако те, кто занимается управлением информацией, должны быть бизнес-экспертами - они знают, что это за данные, откуда они берутся, как и почему они ценны для бизнеса и как их можно (или нужно) использовать для раскрытия своего потенциала. Короче говоря, управление данными должно быть результатом сотрудничества заинтересованных сторон ИТ и бизнеса.

От управления данными к управлению данными и искусственным интеллектом

Традиционная программа управления данными охватывает широкий спектр действий, включая безопасность данных, управление справочными и основными данными, качество данных, архитектуру данных и управление метаданными (см. Рисунок 1 ниже).

Рис.: Переход от традиционного управления данными к управлению данными и искусственным интеллектом

Теперь, когда растет распространение машинного обучения и искусственного интеллекта, появляются новые компоненты, которые также должны входить в систему управления данными (см. Рисунок 2 ниже). А именно:

  1. Управление моделями машинного обучения
  2. Управление этикой

которые мы подробно рассмотрим ниже.

Управление моделями машинного обучения

Подобно тому, как использование данных регулируется программой управления данными, разработка и использование моделей машинного обучения и искусственного интеллекта требует четких, однозначных политик, ролей, стандартов и показателей.

Они будут стремиться ответить на такие вопросы, как:

  • Кто отвечает за производительность и обслуживание производственных моделей машинного обучения?
  • Как модели машинного обучения обновляются / обновляются с учетом дрейфа модели (ухудшения ее производительности)?
  • Какие показатели производительности измеряются при разработке и выборе моделей и какой уровень производительности приемлем для бизнеса?
  • Каким образом осуществляется мониторинг моделей с течением времени для обнаружения ухудшения модели или неожиданных, аномальных данных и прогнозов?
  • Как проверяются модели и можно ли их объяснить тем, кто их не разрабатывает?

Управление этикой

Второй новый аспект современной стратегии управления данными - это управление и политика в отношении этичного использования данных. Это было выдвинуто на первый план с вопросами, дебатами и дискуссиями по этике и ИИ, но это также то, что, возможно, было упущено из виду управлением данными в целом.

Данные должны использоваться в соответствии с этическими стандартами компании, независимо от того, используются ли модели машинного обучения и искусственного интеллекта или нет. Cambridge Analytica - один из примеров того, как компания нарушает то, что многие считают этическими стандартами в отношении конфиденциальности данных, путем получения большого количества данных пользователей Facebook без их ведома.

Вопросы этики стали предметом обсуждения в связи с машинным обучением и искусственным интеллектом, а также со всеми этическими последствиями решений, принимаемых моделями, а не людьми.

Принципы этического управления должны отвечать на такие вопросы, как:

  • Какие защищенные характеристики следует исключить в процессе обучения модели (например, этническая принадлежность, пол, возраст и религия)?
  • Как мы учитываем и смягчаем предвзятость модели и несправедливость по отношению к определенным группам?
  • Как мы уважаем конфиденциальность данных наших клиентов / сотрудников / пользователей / граждан?
  • Как долго мы можем законно хранить данные сверх их первоначального предполагаемого использования?
  • Этичны ли средства, с помощью которых мы собираем и храним данные?

Рисунок 2: Управление данными и искусственным интеллектом

Почему именно управление?

Большинство предприятий сегодня определяют управление данными как очень важную часть своей стратегии обработки данных, но чаще всего это связано с тем, что плохое управление данными сопряжено с риском. И это неплохая причина для того, чтобы расставить приоритеты. В конце концов, очень важно соблюдать правила и избегать злоумышленников или опасений по поводу безопасности.

Однако программы корпоративного управления приносят пользу не только потому, что они обеспечивают безопасность компании - их влияние гораздо шире.

Программы управления:

  • Экономьте деньги. По данным Gartner, недавнее исследование показало, что организации считают, что низкое качество данных является причиной убытков в среднем на 15 миллионов долларов в год. Стоимость нарушений безопасности также может быть огромной: в отчете IBM средняя стоимость нарушения безопасности данных оценивается в 3,92 миллиона долларов. Надежное управление данными, охватывающее качество и безопасность данных, может привести к огромной экономии для компании.
  • Повышение доверия. Правильно реализованное управление данными может повысить доверие к данным на всех уровнях организации. Позволяет сотрудникам быть более уверенными в решениях, которые они принимают с данными компании. Это также может повысить доверие к анализу и моделям, созданным специалистами по данным, с большей точностью в результате повышения качества данных.
  • Снижение риска. Управление данными может снизить риск для репутации компании из-за утечки данных и проблем с общественностью, когда данные использовались неэтичным образом. При усилении регулирования в отношении данных риск штрафов может нанести невероятный ущерб GDPR, что является ярким примером со штрафами до 20 миллионов евро или 4% годового мирового оборота.

Это не просто «обеспечение безопасности компании» - данные и управление ИИ являются важными компонентами для приведения компании к сегодняшним стандартам данных, то есть демократизации.

Пять компонентов современной стратегии управления данными и искусственным интеллектом

Теперь, когда преимущества управления данными и ИИ очевидны, какие практические шаги могут предпринять компании для реализации современной стратегии управления данными и ИИ?

1. Стратегия сверху вниз и снизу вверх

Каждая программа Data Governance требует спонсорской поддержки со стороны руководства. Без сильной поддержки со стороны руководства маловероятно, что компания внесет правильные и часто сложные изменения для улучшения безопасности данных, качества данных и управления.

В то же время отдельные команды должны нести коллективную ответственность за данные, которыми они управляют, и анализ, который они производят. Необходима культура постоянного улучшения и ответственности за проблемы с данными. Такой восходящий подход может быть реализован только с помощью нисходящего взаимодействия и признания групп, которые улучшили качество и безопасность данных.

2. Баланс между управлением и возможностями

Управление не должно препятствовать инновациям, оно должно способствовать и поддерживать инновации. Необходимо различать экспериментальные и промышленные информационные продукты. Для первого необходимо предоставить место, но решение необходимо принимать тогда, когда доказательство концепции должно иметь финансирование, испытания и гарантии, чтобы стать промышленным решением.

3. В основе качества

Во многих компаниях продукты данных, производимые группами по анализу данных и бизнес-аналитике, не имеют такой же приверженности качеству, как при традиционной разработке программного обеспечения, посредством таких движений, как экстремальное программирование и мастерство программного обеспечения. Это быстро перестает происходить. Информационные продукты должны иметь высокий уровень качества посредством анализа кода, тестирования и непрерывной интеграции / непрерывной разработки (CI / CD), которые есть у традиционного программного обеспечения, если вы хотите доверять знаниям и принимать их в масштабах бизнеса.

4. Управление моделью - ключевой фактор

По мере того как модели машинного обучения и глубокого обучения становятся все более распространенными в решениях, принимаемых в различных отраслях, управление моделями становится ключевым фактором в любой стратегии управления данными / ИИ. Модели могут со временем ухудшаться из-за дрейфа модели. Постоянный мониторинг, обновление моделей и тестирование необходимы, чтобы гарантировать, что производительность моделей соответствует потребностям бизнеса.

MLOps - это попытка взять лучшее из процессов DevOps из разработки программного обеспечения и применить их в Data Science.

Рисунок 3 - MLOps

Программное обеспечение с открытым исходным кодом, такое как MLFlow и DVC (Data Version Control), делает управление моделями проще, чем когда-либо.

5. Этика и прозрачность очень важны

Решения, принимаемые с помощью моделей машинного обучения и глубокого обучения, становятся все более пристальными, и это правильно. Модели принимают решения, которые ежедневно влияют на жизни многих людей. Поэтому очень важно понимать этические последствия принимаемых ими решений и объяснять модели.

Наборы инструментов с открытым исходным кодом, такие как Aequitas, разработанные Чикагским университетом, упрощают разработчикам машинного обучения, аналитикам и политикам проверку моделей машинного обучения на предмет дискриминации и предвзятости.

Ниже приведен пример отчета Aequitas о предвзятости и справедливости, показывающий, что модель, используемая для выявления лиц, которые могут быть обвинены в полиции, имеет предвзятость в зависимости от пола, семейного положения и расы.

Рисунок 4 - Пример отчета Aequitas по аудиту предвзятости и справедливости

Подводные камни управления данными и искусственным интеллектом

Несмотря на очевидную важность и ощутимые преимущества наличия эффективной программы управления данными и ИИ, организации могут столкнуться с несколькими ловушками.

Отсутствие старшего спонсорства

Программа управления неэффективна, если нет спонсорства со стороны старшего звена и у политики нет «зубов». Сотрудники часто возвращаются к статус-кво, если не будет критики сверху вниз, когда не соблюдаются политики управления данными, и не будет признания того, когда будут предприняты позитивные шаги для улучшения управления данными.

Плохая связь

Отсутствие четкой информации о политиках, стандартах, ролях и показателях управления данными может привести к тому, что программа управления данными окажется неэффективной. Если сотрудники не знают или не осведомлены о том, что такое политики и стандарты, как они могут их реализовать? Использование лучших доступных каналов связи и обучения, будь то вебинары, электронное обучение, онлайн-документация, массовые рассылки по электронной почте или видео, может помочь донести политику и цели программы управления данными в масштабах всей организации.

Культура

Наконец, если нет культуры владения и приверженности улучшению использования и эксплуатации данных во всей организации, очень сложно обеспечить эффективность стратегии управления данными. Как говорится, «культура ест стратегию на завтрак».

Выводы

Мы надеемся, что вы сделаете несколько выводов из этой статьи:

Во-первых, традиционное управление данными и все связанные с ним области по-прежнему важны. Будь то качество данных, управление основными данными или безопасность данных.

Во-вторых, машинное обучение и искусственный интеллект добавили новые аспекты в управление данными, связанные с управлением моделями и этикой.

Наконец, необходимы правильное спонсорство, инвестиции, культура и коммуникация, чтобы убедиться, что программа управления данными эффективна и ведет к постоянному совершенствованию во всей организации.

Авторы

Джон Хауэллс и Линн Хайдманн

Автор: Джон Хауэллс, директор консалтинговой компании Qualifai в области искусственного интеллекта и аналитики.

Https://www.qualifai.co.uk/

Ссылки

Управление искусственным интеллектом: программа исследований (Оксфордский университет)

https://www.fhi.ox.ac.uk/wp-content/uploads/GovAIAgenda.pdf

Перспективы проблем управления ИИ (Google)

https://ai.google/static/documents/perspectives-on-issues-in-ai-governance.pdf

Модель искусственного интеллекта - рамки управления (Singapore Digital)

https://ai.bsa.org/wp-content/uploads/2019/09/Model-AI-Framework-First-Edition.pdf