Быстро понять, почему современные системы искусственного интеллекта терпят неудачу, и как причинно-следственная связь может помочь

Современные системы искусственного интеллекта упростили решение многих проблем, которые раньше считались недоступными для компьютеров. Возможно, вы слышали о некоторых из этих успехов, таких как:

  • GPT-3: создает абзацы текста, похожего на человеческий, на основе любой исходной подсказки, которую вы предоставляете.
  • AlphaFold: предсказывает, как белки принимают форму в трехмерном пространстве. Настоящий прорыв в современной биологии.
  • DALLE-2: создает невероятно детализированные и реалистичные изображения из текстовых описаний.

Эти системы настолько хороши, что убедили даже тех, кто работал над их разработкой, в том, что они разумны.

Однако, несмотря на успехи, многие из этих систем можно считать технологическими попугаями. Попугаи могут подражать своим владельцам, но не понимают, что они говорят и почему они это говорят.

Точно так же современные системы ИИ могут имитировать шаблоны, которые они изучили из предыдущих данных, не зная истинного контекста решаемой проблемы и не понимая, почему возвращается данный прогноз. Современные системы искусственного интеллекта — это попугаи как в массовом масштабе (GPT-3 был обучен примерно на 3 миллиардах веб-страниц), так и с огромными социальными последствиями.

Конечным результатом такого подражания является то, что современные системы искусственного интеллекта страдают от следующих трех проблем:

  1. Слепой
  2. Пристрастный
  3. Хрупкий

Эти три пункта «В» означают, что современные системы искусственного интеллекта плохо справляются с тонкими, сложными и рискованными приложениями, к которым они применяются. Давайте рассмотрим, как может помочь каузальный подход.

Слепой

Современные системы ИИ слепы к типу отношений между точками данных и не имеют контекста проблем, для решения которых они используются.

Чтобы проиллюстрировать это, рассмотрим взаимосвязь между многолетним опытом и доходом. Как правило, чей-то опыт коррелирует с его доходом: чем больше опыта, тем выше зарплата. Это также верно и в обратном направлении: чем выше доход, тем больше опыт. Эту двустороннюю корреляцию можно назвать ассоциативной связью.

Другой тип связи — причинно-следственная. В этом случае одна переменная вызывает изменение другой. Доход, который кто-то зарабатывает, определяется благодаря многолетнему опыту*. В отличие от ассоциативных отношений причинность односторонняя; опыт человека не зависит от дохода, который он зарабатывает.

Причинные методы предоставляют вам инструменты для отделения ассоциации от причинно-следственной связи. Вмешиваясь в систему и устанавливая чей-то опыт на заданное значение, вы можете наблюдать, как это изменит их доход. С помощью интервенций можно определить тип связи между опытом и доходом (причинно-следственная или ассоциативная) и в каком направлении она течет (опыт вызывает доход). Вы можете думать о вмешательствах как о способе ответа на определенные вопросы типа «что, если»: что, если бы мне было 45 лет, а не 31, сколько бы я зарабатывал?

Современные системы ИИ очень хорошо выявляют ассоциации в данных, и эти отношения имеют основополагающее значение для их успеха. Однако, поскольку эти системы традиционно были слепы к причинно-следственным связям, они неоднократно извлекали из данных вводящие в заблуждение ассоциации. Эти вводящие в заблуждение ассоциации или ложные корреляции могут быть пагубными и опасными для систем ИИ.

Интуитивно корреляция является ложной, если мы не ожидаем, что она сохранится в будущем так же, как в прошлом. Вы можете найти большой список ложных корреляций здесь. Устранение ложных корреляций является основой рандомизированного контролируемого исследования; золотой научный стандарт для доказательства гипотезы.

Причинный ИИ является мощным, поскольку позволяет выявлять и устранять ложные корреляции, используя существующие наблюдаемые данные, без необходимости запуска контролируемого испытания.

Пристрастный

Ложные корреляции повсюду, и современные системы искусственного интеллекта регулярно изучают их. Эти корреляции часто вносят вредную предвзятость, о чем свидетельствуют приведенные ниже примеры:

Чтобы проиллюстрировать, как причинно-следственные методы могут помочь, давайте расширим рассмотренный выше пример прогнозирования дохода, добавив ряд других переменных, показанных в таблице 1.

Из-за исторических погрешностей в наблюдаемых данных, показанных в таблице 1, системы ИИ, обученные на ней, научились ассоциировать женский пол с более низким доходом. Чтобы гарантировать, что ваша модель генерирует полезные и безопасные прогнозы, это смещение необходимо контролировать.

Причинные методы позволяют создать причинно-следственную диаграмму, показывающую отношения между переменными. Каждая стрелка на этой диаграмме показывает, как одна переменная причинно влияет на другую, например. опыт оказывает причинно-следственное влияние на доход. Это позволяет вам явно представлять смещения в данных.

Когда у вас есть причинно-следственная диаграмма, которая, по вашему мнению, точно отражает, как данные связаны друг с другом, ею можно манипулировать, чтобы контролировать ряд различных факторов, включая устранение предвзятости.

Одной из манипуляций может быть вмешательство в пол немецкой женщины-инженера, чтобы увидеть, как это повлияет на их доход. В качестве альтернативы, контролируя пол, вы можете удалить влияние пола из причинно-следственной диаграммы. Результатом является объективная оценка влияния других факторов на доход.

Хрупкий

Современные системы искусственного интеллекта — это деликатные системы, требующие тщательной тонкой настройки, чтобы убедиться, что они настроены правильно. Несмотря на то, что они обучены работе с огромными объемами данных, они все же могут потерпеть неудачу неожиданными или тривиальными с человеческой точки зрения способами. На рис. 4 показано, как алгоритм обработки изображений не может распознать корову, когда она находится на пляже, а не в поле. И это несмотря на то, что во время обучения классификатору изображений были показаны тысячи изображений коров.

Для типов современных систем искусственного интеллекта, упомянутых в этом блоге, способность надежно прогнозировать невидимые и незнакомые данные обычно называется обобщением. Причинное машинное обучение по-другому подходит к обобщению, так как теперь учитываются как наблюдаемые данные, так и соответствующая причинно-следственная диаграмма — см. рис. 5 ниже.

Следовательно, каузальные модели пытаются обобщить поведение при одном наборе условий на поведение при другом наборе. Причинно-следственные модели следует выбирать на основе критериев, проверяющих их устойчивость к изменяющимся условиям, т.е. когда проводятся вмешательства. Ученые следуют этой мантре при проведении контролируемых испытаний для выявления причинно-следственных связей.

В результате причинно-следственные модели более устойчивы к изменяющимся условиям реального мира и могут быстрее адаптироваться к резким изменениям в данных. Эти преимущества побудили исследователей ИИ начать внедрять эти понятия обобщения, взятые из каузального ИИ, в системы, которые они создают.

Заключение

Это было краткое введение в каузальный ИИ, в котором обсуждались некоторые преимущества, которые он дает, и то, как они могут помочь преодолеть слепой, предвзятый и неустойчивый характер современных алгоритмов ИИ.

Вот три ключевых вывода:

  1. Причинно-следственные диаграммы. Указав отношения между наблюдаемыми данными, вы можете лучше понять проблемную область, уменьшить систематическую ошибку и выполнять манипуляции с диаграммой для моделирования широкого спектра ситуаций.
  2. Манипулирование. Сценарии можно моделировать, а ответы на вопросы «что, если» можно получить, манипулируя причинным ИИ. Эти манипуляции позволяют глубже изучить проблему и дают возможность ответить на вопросы о гипотетических ситуациях.
  3. Обобщение. Причинный ИИ лучше обобщает невидимые данные, поскольку он создан для адаптации к изменяющимся условиям, а не только к изменяющимся данным.

Примечания

*Очевидно, что для определения чьего-то уровня дохода требуется нечто большее. Они будут построены в более полной модели, см. раздел «Предвзятость», но для простоты сначала мы будем рассматривать только многолетний опыт как влияющий на доход, а остальные факторы оставим как скрытые переменные.