В новой публикации описаны методологии измерения эффективности классификации моделей, систем и алгоритмов машинного обучения.

Классификация — это разделение объектов, таких как документы или изображения, на классы и подклассы в соответствии с их характеристиками. Простой пример — спам-фильтр электронной почты, который классифицирует входящие сообщения как «спам» и «не спам». Классификатору нужны примеры «спамовых» и «не спамовых» электронных писем, чтобы научиться выполнять задачу, распознавая шаблоны.

Оценка производительности классификатора необходима для повышения точности и уменьшения систематической ошибки. Модели машинного обучения (ML), например, можно обучать таким образом, чтобы усиливать сексистские и расистские предубеждения из реального мира. Например, в последние годы мы видели программное обеспечение для распознавания изображений, которое не могло правильно идентифицировать небелые лица. Точно так же предвзятые выборки данных могут научить машины, на которых женщины делают покупки и готовят, а мужчины работают в офисах и на фабриках. Такого рода проблемы могут возникнуть, когда ученые, занимающиеся обучением моделей, невольно привносят в свою работу собственные предубеждения.

Смещения также могут возникать, когда выборка собрана таким образом, что некоторые члены предполагаемой статистической совокупности представлены меньше, чем другие. Другими словами, когда данные, используемые для обучения модели, не совсем точно отражают среду, в которой она будет работать.

Смещение выборки может быть введено, например, если алгоритм, используемый для медицинской диагностики, обучается только на данных, полученных из одной совокупности. Точно так же, если алгоритм, предназначенный для круглогодичной эксплуатации беспилотных транспортных средств, обучается только на данных, собранных в летние месяцы, падающие снежинки могут сбить систему с толку.

Систематическое искажение значений

Систематическое искажение значения происходит, когда истинное значение измерения систематически завышается или занижается. Такая ошибка обычно возникает, когда возникает проблема с устройством или процессом, используемым для проведения измерений.

На относительно простом уровне могут возникнуть ошибки измерения, если обучающие данные снимаются камерой, которая отфильтровывает некоторые цвета. Часто проблема более сложная.

В здравоохранении, например, трудно внедрить единый процесс измерения данных о пациентах из электронных карт. Даже внешне похожие записи могут оказаться трудными для сравнения. Это связано с тем, что для постановки диагноза обычно требуется интерпретация результатов тестов и вынесение нескольких суждений на разных стадиях развития заболевания, при этом время принятия первоначального решения зависит от того, когда пациент впервые почувствовал себя достаточно плохо, чтобы обратиться к врачу. Алгоритм также должен учитывать прошлую историю болезни каждого пациента. Алгоритм должен быть в состоянии принять во внимание все переменные, чтобы сделать точный прогноз.

Алгоритмическая предвзятость

Алгоритмическая предвзятость — это то, что происходит, когда система машинного обучения отражает ценности людей, которые ее разработали или обучили. Например, предвзятость подтверждения может быть встроена в алгоритм, если цель, преднамеренная или непреднамеренная, состоит в том, чтобы доказать предположение или мнение. Это может произойти, например, в деловой, журналистской или политической среде.

Было несколько громких случаев алгоритмической предвзятости, связанных с социальными сетями и поисковыми системами, а также в сфере корпоративного найма.

Новый международный стандарт

Совместный комитет МЭК и ИСО по ИИ, SC 42, разработал новую техническую спецификацию — ISO/IEC TS 4213, в которой указаны методологии измерения эффективности классификации моделей, систем и алгоритмов машинного обучения. В нем описываются методологии бинарной классификации, такие как приведенный выше пример спам-фильтра, а также варианты использования мультиклассовой и мультилейковой классификации. ISO/IEC TS 4213 описывает согласованные подходы и методы, которые можно применять для более эффективного сравнения результатов в различных режимах оценки. Новая TS основана на основополагающих концепциях недавно опубликованного ISO/IEC 22989, в котором рассматриваются концепции и терминология ИИ.

«Вычислительные алгоритмы лежат в основе систем искусственного интеллекта. Этот новый стандарт обеспечивает согласованные и справедливые результаты при использовании различных алгоритмических подходов», — сказал председатель SC 42 Ваэль Уильям Диаб. «Эта публикация подтверждает цель комитета по обеспечению широкого ответственного внедрения ИИ и дополняет обширный портфель работ, охватывающий всю экосистему ИИ».

Руководитель проекта Мишель Тиме сказал: «Поскольку академические, коммерческие и государственные практики продолжают совершенствовать модели машинного обучения, существует реальная потребность в последовательных подходах и методах, которые будут применяться для оценки эффективности классификации машинного обучения. Эта новая публикация будет полезна широкому кругу заинтересованных сторон».

ISO/IEC TS 4213 определяет методологии измерения эффективности классификации моделей, систем и алгоритмов машинного обучения. Это помогает ответить на такие вопросы, как

· Насколько «хороша» модель?
· Насколько надежны его прогнозы?
· Какова ожидаемая частота и размер ошибок?
· Какая модель является наиболее эффективной из N альтернатив?
· Хорошо ли работает модель с зашумленными или новыми производственными данными?

В TS оценка определяется как «процесс сравнения прогнозов классификации, сделанных моделью для данных, с фактическими метками в данных». Концепции оценки в ISO/IEC TS 4213 включают:

· Репрезентативность и предвзятость данных
· Предварительная обработка
· Данные для обучения
· Данные тестирования и проверки
· Перекрестная проверка
· Ограничение утечки информации
· Ограничение эффектов канала
· Наземная правда
· Алгоритмы машинного обучения, гиперпараметры и параметры
· Среда оценки
· Ускорение
· Надлежащие базовые показатели
· Помещение производительности в контекст .

«Данные обучения могут быть искаженными, неполными, устаревшими, непропорциональными или иметь встроенные исторические предубеждения. Такие нежелательные смещения могут распространять искажения, присутствующие в обучающих данных, и наносить ущерб обучению модели», — сказал руководитель проекта Линчжун Мэн.

«Более того, обучающие данные для конкретной задачи могут не распространяться на другие задачи. Следует проявлять особую осторожность при разделении несбалансированных данных на обучение и тестирование, чтобы гарантировать, что одинаковые распределения сохраняются между обучением, проверкой и набором тестов».

ISO/IEC TS 4213 является частью широкого спектра подходов к обеспечению справедливости и снижению предвзятости во все более распространенных системах ML, на которые опирается общество. Они касаются всех аспектов современной жизни. Например, по подсчетам аналитиков, три четверти заявлений о приеме на работу в США обрабатываются алгоритмами. Многие банки используют искусственный интеллект для оценки ссуд и кредитов. Оставленная без внимания, предвзятость может привести к множеству несправедливых решений, включая отказ в приеме на работу или неправомерный отказ в банковских кредитах.

SC 42 разрабатывает международные стандарты для ИИ. Его уникальный целостный подход рассматривает всю экосистему ИИ, рассматривая технологические возможности и нетехнические требования, такие как деловые и нормативные и политические требования, потребности предметной области, а также этические и социальные проблемы. SC 42 также организует раз в два года серию Семинары ISO/IEC AI Workshop, которые находятся в свободном доступе. Архивы первого семинара за май и регистрации на предстоящий семинар в ноябре можно найти на веб-сайте серии семинаров.