Что исследования экспертной интуиции могут рассказать нам о надежности алгоритмов машинного обучения?

Многие думают о роли машинного обучения и искусственного интеллекта в улучшении процесса принятия решений человеком.

При обсуждении этих вопросов действуют две уравновешивающие силы:

  • один отмечает перспективность и точность алгоритмов машинного обучения для решения задач
  • один критикует чрезмерную рекламу этих алгоритмов, указывая на случаи, когда их производительность в реальном мире разочаровывает, а отчеты об их производительности могут вводить в заблуждение.

Основная проблема, связанная с принятием решений с помощью ИИ, связана с использованием алгоритмов черного ящика — если мы не знаем, как было принято решение, почему мы должны ему доверять? Но на самом деле мы все время полагаемся на алгоритмы черного ящика в форме экспертной интуиции. Доверенные лица, такие как врачи, медсестры и пожарные, используют интуицию для принятия быстрых решений по сложным вопросам.

Есть сильные параллели между работой в прошлом, изучающей интуицию экспертов, и работой, которая сейчас исследует перспективы и подводные камни моделей машинного обучения. Условия интуитивных знаний: невозможность не согласиться,написанная ведущими исследователями Дэниелом Канеманом и Гэри Кляйном, обрисовывает плюсы и минусы интуитивного принятия решений и может предложить некоторые Взгляд на принятие решений методом черного ящика.

Дэниел Канеман получил Нобелевскую премию по экономике за свою работу о психологии человеческого суждения и принятия решений. Его работа исследует эвристику и предубеждения, которые влияют на бессознательное принятие решений таким образом, что это может заставить нас вести себя нелогично и вопреки нашим интересам.

Гэри Кляйн был пионером в области натуралистического принятия решений, в рамках которого исследуются эксперты в своей области, чтобы лучше понять, как они принимают решения в сложных сложных ситуациях. Эта область ориентирована на высококвалифицированных экспертов в условиях, которые трудно воссоздать в лаборатории.

В своем отчете эти два исследователя из разных областей обсуждают свое мнение о роли интуиции в принятии решений.

Экспертная интуиция иногда может быть удивительно точной, а иногда совершенно ошибочной. Поскольку эксперт практически не понимает, что движет его интуицией, может быть трудно понять, стоит ли доверять интуитивным суждениям. В своей статье Клейн и Канеман обсудили условия, когда следует доверять интуиции, а когда нет. Я считаю, что это обсуждение дает информацию о том, как мы должны думать об исследованиях ИИ.

Что такое интуиция?

Что делает интуицию одновременно впечатляющей и сложной в работе, так это то, что решения, основанные на интуиции, приходят в голову внезапно и часто не могут быть хорошо объяснены. Обычно мы не можем назвать конкретную информацию, на которой мы основываем суждение, и мы не можем судить, насколько обосновано это суждение.

Считается, что экспертные интуитивные решения часто включают связывание текущей ситуации с аналогичными ситуациями, которые наблюдались в прошлом (это называется принятием решений на основе узнавания).

Хорошим примером этого являются мастера по шахматам — считается, что мастера по шахматам должны выучить от 50 000 до 100 000 паттернов шахматных ходов, прежде чем они смогут стать экспертами. Это позволяет им выбирать ходы, основываясь на распознавании похожих ситуаций, а не на расчете всех возможных исходов исходя из их текущей позиции на доске. У мастеров шахмат на это уходит около десяти лет серьезной игры.

Интуитивное принятие решений было приписано операциям Системы 1 разума, которые происходят быстро и подсознательно. Их можно противопоставить преднамеренному и часто гораздо более медленному принятию решений операций Системы 2. Операции Системы 1 позволяют нам действовать быстро и принимать решения в сложных ситуациях.

Некоторые из этих решений принимаются на основе сложных способностей нашего мозга к сопоставлению с образцом, связывая прошлый опыт с текущей ситуацией. Другие основаны на эвристиках, которые могут быть полезны для быстрого выбора при ограниченной информации, но иногда могут приводить к неправильным и предвзятым результатам. Наша относительная зависимость от этих двух источников информации для принятия решений по Системе 1 зависит от ситуации.

Машинное обучение также в значительной степени зависит от сопоставления с образцом и кластеризации — размещение нового опыта среди аналогичных примеров из прошлого. Вообще говоря, десятилетий опыта в принятии решений часто бывает достаточно, чтобы считать человека-эксперта заслуживающим доверия. Тот же самый объем опыта может быть быстро обработан алгоритмом, что позволит им нагнать эксперта за долю времени.

Так же, как принятие решений людьми, решения ML могут быть основаны на предубеждениях и чрезмерно упрощенных приемах, на которых мы не хотели бы основывать свои решения. Как и в случае с интуицией, трудно определить баланс между распознаванием действительно информативных паттернов и эвристикой и предубеждениями, на которых основано предсказание.

Когда мы должны доверять интуитивному принятию решений?

Мы ожидаем, что эксперты будут иметь богатый опыт и успешно принимать многие решения в прошлом, однако в некоторых областях экспертные решения очень точны, а в других часто ненамного лучше, чем случайность (например, биржевые маклеры). Считается, что ключевым отличием является среда, в которой принимаются эти решения.

Среда, в которой принимается решение, должна вести себя предсказуемым и воспроизводимым образом. Если это так, то человеческий мозг обладает фантастической способностью улавливать прогностические сигналы, даже если мы о них не знаем, и замечать их, если они снова всплывут в будущем.

Где интуиция подводит

Есть хорошо задокументированные ситуации, когда сопоставление с образцом может ввести нас в заблуждение или когда мы, сами того не зная, начинаем полагаться на эвристику и предубеждения.

В целом эти эвристики весьма полезны, но иногда они приводят к серьезным и систематическим ошибкам
Тверски и Канеман

«Плохая» среда: сценарии, в которых сигналы вводят в заблуждение.

  • Известным примером является врач начала 20-го века, который диагностировал брюшной тиф, глядя на пациентов. Для подтверждения своего диагноза он пальпировал их языки, не моя рук. Делая это, он распространил брюшной тиф среди пациентов, которые, как он думал, заболеют, что сделало его предсказания самоосуществляющимися.
  • Эквивалентом машинного обучения является прогнозирующая полицейская деятельность: алгоритмы, обученные на основе предыдущих арестов, отправляют полицию в районы, где было зарегистрировано много предыдущих преступлений. Это приводит к положительной обратной связи, которая усиливает внимание полиции к обычно бедным районам. Это приводит к увеличению обвинений в мелких преступлениях, но мало влияет на серьезные преступления.

Систематическая ошибка: пренебрежение базовыми показателями при оценке результатов для отдельных случаев, что приводит к переоценке или недооценке вероятности редких событий.

  • Специалисты-люди склонны переоценивать или недооценивать вероятность событий, которые случаются нечасто. Пол Мил выполнил раннюю работу, в которой сравнил точность прогнозов, сделанных клиническими психологами, с прогнозами, сделанными с помощью простых статистических моделей. Он обнаружил, что в различных сценариях простая статистическая модель лучше прогнозирует результаты, чем эксперты, и объяснил это в значительной степени неспособностью клиницистов учитывать исходную вероятность наличия у кого-либо редкого заболевания. Большие последующие метаанализы еще больше подтвердили это утверждение.
  • Алгоритмы машинного обучения также могут испытывать трудности с предсказанием редких событий. Это привело к развитию различных подходов к работе с несбалансированными классами результатов.

Подстановка атрибутов: сложное решение заменяется более простым.

  • Примером может служить случай, когда долгосрочный успех ребенка предсказывается возрастом, в котором он начинает хорошо читать, хотя эти два показателя не имеют сильной корреляции.
  • Часто в медицине мы хотим измерить долгосрочные результаты, такие как сердечный приступ со смертельным исходом, но у нас нет времени и ресурсов, чтобы собрать набор данных, который измеряет это, поэтому мы можем измерить маркеры в крови, которые коррелируют с ожидаемым исходом. интересно. Это отличный способ быстрее получить большой набор данных, но это может привести к неправильному моделированию.

Внутренняя последовательность: люди доверяют своей интуиции, потому что чувствуют себя уверенно, и их решения, как правило, были правильными в прошлом.

  • Уверенность, как правило, не является хорошим показателем правильности, потому что люди склонны переоценивать свои знания по теме. Уверенность часто основывается на внутренней согласованности, то есть на запомненной истории того, как часто предсказания оказывались верными. Внутренняя согласованность может возникнуть благодаря глубокому пониманию темы или благодаря знакомству с узким кругом ситуаций.
  • Точно так же высоковероятностный ответ, выдаваемый алгоритмом ML, может отражать действительно надежный прогноз или отсутствие разнообразия в обучающих данных, что приводит к чрезмерно уверенному размещению наблюдений в жестко определенные группы.

Низкое качество обратной связи: некоторые профессии предлагают более качественную обратную связь, чем другие, и это оказывает огромное влияние на качество принимаемых решений.

  • Отсроченная, разреженная и/или неоднозначная обратная связь об ошибках приводит к неправильным решениям и часто к чрезмерной уверенности. Это может привести к проблемам с клиницистами, которые ставят диагнозы и пропускают людей через конвейер медицинской помощи, но никогда не получают отзывов о результатах своих пациентов и о том, были ли их решения правильными.
  • Алгоритмы машинного обучения могут дать сбой в реальном мире, если они были обучены на неверных данных. Если обучающие и тестовые наборы смещены одинаково, у алгоритма не будет хороших шансов распознать смещение в обучающих данных, и у нас не будет хорошей возможности оценить, насколько он заслуживает доверия.

Дробленный опыт: работа может включать в себя ряд задач, некоторые из которых выполняются часто экспертами, в которых они очень компетентны, а другие возникают редко и в которых один и тот же эксперт может быть менее компетентен.

  • Медсестры, врачи и аудиторы — все они служат примерами как ценности интуиции, так и того, где она не работает, в зависимости от задачи. Это связано с тем, что роль включает в себя смесь задач по принятию решений, некоторые из которых легкие, а некоторые сложные. Проблемы, которые действительно новы для эксперта, как правило, ставят его в тупик, но наш эксперт может не всегда распознавать, когда они выходят за рамки их понимания.
  • В ML это можно рассматривать как ошибку обобщения. В клиническом прогнозировании это будет проявляться в виде различий между эффективностью во время разработки и эффективностью в клинике, где может встречаться более широкий круг пациентов. Хорошим примером является алгоритм DeepMind для прогнозирования острого повреждения почек, который был обучен на группе американских ветеранов, преимущественно мужчин. Алгоритм, вероятно, будет менее точным, если его использовать на общей популяции.

Когда алгоритмы превосходят экспертов?

Метаанализ 136 исследований, сравнивающих точность клинического и алгоритмического принятия решений, показал, что примерно в половине исследований алгоритмы были явно лучше, чем люди, в другой половине не было существенной разницы. Только восемь исследований показали, что клиницисты лучше других принимают решения.

Согласно Канеману и Кляйну, алгоритмы превосходят людей в двух совершенно разных сценариях:

  1. Когда вы имеете дело с шумной и/или сложной средой (например, прогнозируете успеваемость в колледже, продолжительность психиатрической госпитализации и текучесть кадров). Многие из этих ситуаций можно охарактеризовать как «злые», когда прогнозы сами по себе могут влиять на результаты. Переменные также обычно слабо предсказуемы, что затрудняет обнаружение связей и последовательное их использование людьми. В этих случаях алгоритмы обычно не очень точны, но они постоянно превосходят людей.
  2. Когда вы имеете дело с очень предсказуемой средой, в которой люди, как правило, терпят неудачу из-за потери внимания, усталости, голода и т. д.

Эту дихотомию полезно учитывать — обычно алгоритмы рекламируются и считаются хорошими только в том случае, если их точность чрезвычайно высока. Умеренно точный алгоритм, используемый в ситуации, когда результаты в настоящее время очень плохие, часто не получает должного внимания, но может стать важной областью для продвижения процесса принятия решений с использованием искусственного интеллекта.

Распаковка черного ящика

Цель натуралистического принятия решений состоит в том, чтобы оценить силу экспертных навыков принятия решений и извлечь сигналы, которые эти эксперты используют для принятия своих решений, чтобы дать возможность менее опытным людям сделать лучший выбор. Это достигается с помощью структурированных интервью, целью которых является выявление конкретных сигналов, которые привели к заключению. Например, в исследовании медсестер в отделении интенсивной терапии новорожденных, которые смогли выявить детей, у которых развились опасные для жизни инфекции, до того, как это сделали лабораторные анализы, опрошенные медсестры не смогли назвать, как они определили этих детей.

Но когда исследователи изучили конкретные инциденты, медсестры смогли определить признаки и закономерности, которые, казалось, объединяли эти примеры. Некоторые из них уже были в литературе по сестринскому делу, другие — нет. В более позднем исследовании удалось подтвердить, что медсестры из другой больницы также полагались на те же сигналы, что привело к развитию более качественной подготовки медсестер за счет раскрытия этой интуиции.

Как может быть сложно понять интуицию, так же сложно понять, как алгоритмы машинного обучения принимают решения. Однако в этой области наблюдается устойчивый прогресс. Точно так же, как опросы медсестер позволили нам извлечь простые сигналы, которые менее опытные медсестры могли бы использовать для улучшения своих решений, извлечение информативных переменных и правил из алгоритмов МО может позволить нам создать более простые алгоритмы, которые получают информацию из алгоритмов МО без чрезмерное усложнение, а также потенциальный шум и предвзятость.

Мы могли бы представить себе две ветви предсказательных усилий, быструю и медленную, как в мышлении Системы 1 и 2. Алгоритмы машинного обучения могут быстро сканировать данные на наличие шаблонов и делать прогнозы на основе новых данных, давая нам представление о том, насколько хорошо они учатся понимать то, что наблюдают. Затем мы можем извлечь шаблоны, идентифицированные этими моделями, для более длительного и тщательного процесса проверки гипотез и построения более подробной модели лежащего в их основе механизма.

Объединяющей чертой подходов Канемана и Кляйна является то, что они оба восхищаются неудачами: Канеман — неудачами отдельных людей, Кляйн — неудачами бюрократии и систем. Я думаю, что это ключевой вывод — большую ценность можно получить, не только стремясь создать лучший алгоритм, но и выискивая случаи ошибок и уделяя время их изучению.