Качество модели ИИ: убер-метрика ценности бизнеса

Дипам Мишра

Справка: этот блог в значительной степени основан на моей беседе с Анупамом Даттой и Уильямом Аппингтоном, соучредителями TruEra.com

Слушайте оригинальный подкаст здесь

Что такое качество ИИ и почему это должно вас волновать

Большое количество проектов AI/ML никогда не увидят свет. По оценкам Gartner, около 80% проектов не переходят черту. С точки зрения бизнес-менеджера, есть много вопросов, которые ему нужно решить, прежде чем он сможет запустить модель в производство. Сегодня мы углубимся в аспекты производительности и объяснимости модели.

Бизнес-пользователи используют множество прилагательных для характеристики моделей ИИ. К ним относятся: объяснимость, доверие, предвзятость, точность, справедливость, понятность, надежность и т. д. Моя беседа с основателями TrueEra проливает свет на то, как интерпретировать эти аспекты и управлять ими.

TrueEra определяет общую метрику как «Качество модели», которая прогнозирует общую ценность модели AI/ML для конкретного бизнеса и варианта использования.

Оно включает в себя многие из прилагательных, которые мы обсуждали ранее. И, как мы увидим позже, многие из этих прилагательных на самом деле тесно связаны между собой. Однако это не всегда очевидно для стороннего наблюдателя.

Объяснимость против предвзятости против точности

Три ножки стула качества

Руководители предприятий, особенно в регулируемых отраслях, часто беспокоятся о внедрении в производство моделей ИИ, которые могут нанести вред клиентам (например, прогнозы в области здравоохранения) или нарушить некоторые правила (непрозрачные решения и т. д.). Решение гораздо более тонкое, чем просто утверждение, что модели ИИ должны быть более объяснимыми, то есть не должны быть черным ящиком.

Объяснимость, справедливость и точность — все это взаимосвязанные элементы, которые определяют качество модели ИИ.

Давайте немного сломаем это.

Объяснимость — это просто причинно-следственная связь между входными переменными (функциями модели) и предсказаниями модели (результатами). Например, показывая, как прогнозируемый спрос на тот или иной товар зависит от погоды, праздников, индекса потребительских цен и даже политических событий.

Справедливость или предвзятость определить немного сложнее, но основная идея заключается в том, что разработчик модели делает все возможное, чтобы модель работала одинаково хорошо для разных наборов входных данных. Упрощенным примером может быть то, как модель предсказывает вероятные решения о найме конкретных кандидатов-женщин и мужчин. Более сложной частью этого вопроса является разграничение справедливости и равенства, что приводит нас больше к моральным и нормативным дебатам, чем к техническим, поэтому мы не будем углубляться в этот аспект в этой статье.

Точность относится к вероятности того, что предсказание ИИ будет таким же фактически верным, как и наземная правда.

Хотя поначалу каждый из них может показаться независимым, для разработчика машинного обучения (специалиста по данным) между каждым из них необходимо найти компромисс. Например, бизнес может обнаружить, что ему нужны более точные прогнозы для 20% своих клиентов, которые приносят 80% прибыли, даже если это означает, что модель в целом более неточна для всего бизнеса. Точно так же специалист по данным может решить включить некоторые необъяснимые аспекты модели («черный ящик»), если она последовательно приводит к лучшим результатам, не причиняя никакого вреда и не нарушая каких-либо нормативных или этических кодексов.

Доказательство качества ИИ: задача новатора ИИ

Недавно регулирующие органы штата Нью-Йорк рассмотрели вопрос, связанный с одобрением Apple Card. Было замечено, что мужчины получали более благоприятные результаты одобрения, чем женщины. Изучив этот вопрос, регулирующие органы поняли, что на самом деле сама модель ИИ не была разработана (даже непреднамеренно) для того, чтобы быть несправедливой. Результаты были несопоставимы в зависимости от пола, но из-за реальных аспектов, таких как более короткая кредитная история, опыт работы и т. д. Однако было установлено, что модель ИИ не обладала достаточной прозрачностью и, следовательно, была открыта для неблагоприятных интерпретаций.

Таким образом, ключевая задача для новаторов в области ИИ — доказать качество своих прогнозов, не ввязываясь в регулирующий надзор.

Как поделились основатели TrueEra, ключ к подтверждению качества модели зависит от двух ключевых стратегий:

(1) Технология измерения производительности модели, предвзятости и т. д.

(2) Сообщение результатов таким образом, чтобы лица, принимающие решения, могли их понять.

Давайте возьмем пример финансовой кредитной компании, которой необходимо прогнозировать кредитные решения для разных заявителей. Им нужна модель, которая точно отбирает кандидатов с низким уровнем риска, но не несправедлива по отношению к разным демографическим характеристикам кандидатов. Они также хотят построить стабильную модель, т. е. не меняющую резко свою производительность в зависимости от условий работы. Чтобы успешно запустить модель в производство, специалисты по данным должны сначала иметь доступ к технологиям, которые могут измерять производительность модели по данным обучения/тестирования, а также продолжать отслеживать производительность модели после ее запуска в производство. Это позволит выявить любые проблемы, связанные с производительностью и стабильностью. Кроме того, Data Scientist также нуждается в инструментах, которые демонстрируют взаимосвязь между прогнозами и атрибутами кандидата для объяснения. Такое решение, как TruEra, которое может показать уровень влияния каждой входной переменной на результаты, поможет специалисту по данным найти соответствующие компромиссы для улучшения аспектов, связанных с справедливостью и производительностью.

В дополнение к этим инструментам для Data Scientist, для Data Scientist также может быть полезно иметь 3 красных/зеленых индикатора, каждый из которых показывает уровни уверенности в каждом ключевом аспекте (точность, предвзятость, стабильность) для лиц, принимающих бизнес-решения, без чтобы вникнуть в детали моделирования ИИ. В течение определенного периода времени (например, 3-месячный теневой период) лица, принимающие бизнес-решения, приобретут знакомство и уверенность, что приведет к возможному одобрению.

Не выплескивайте ребенка вместе с водой

Важный аспект, на который указал основатель TrueEra, заключается в том, чтобы не слишком сосредотачиваться на абсолютной точности и абсолютном качестве прогнозов, а сохранять их относительно статус-кво. Например, если статус-кво в бизнесе заключается в крайне низком качестве решений, модель ИИ, которая улучшает его, может быть приемлемой, даже если это не полностью объяснимо. Конечно, это с учетом того факта, что такие новые инновации не должны преднамеренно причинять какой-либо вред кому-либо за счет прогресса в бизнесе.

Качество модели: искусство против науки

Наука, лежащая в основе объяснимости ядра, получает все большее признание в отрасли. Значения SHAP для моделей ИИ и методов на основе градиента сегодня становятся все более приемлемыми.

Однако отношения между различными столпами Качества не установлены одинаково. Часто отношения очень специфичны для бизнеса и могут показаться немного больше похожими на искусство, чем на науку.

Хорошая новость: надежность и объяснимость часто идут рука об руку

Хорошие новости, полученные в результате исследований и усилий по улучшению качества моделей, заключаются в том, что объяснимость и надежность на самом деле могут быть взаимно синергетическими понятиями. По словам основателей TruEra, в нескольких проектах глубокого обучения, когда они сосредоточились на том, чтобы сделать модели ИИ более устойчивыми к изменениям, они также обнаружили, что модели становились все более и более объяснимыми. Модели глубокого обучения часто бывают ненадежными и, следовательно, их труднее обобщить. Однако идея сделать их более объяснимыми также помогает им стать более широко используемыми. Это остается предметом активных исследований, но первые признаки весьма позитивны.