Быстро понять, почему современные системы искусственного интеллекта терпят неудачу, и как причинно-следственная связь может помочь
Современные системы искусственного интеллекта упростили решение многих проблем, которые раньше считались недоступными для компьютеров. Возможно, вы слышали о некоторых из этих успехов, таких как:
- GPT-3: создает абзацы текста, похожего на человеческий, на основе любой исходной подсказки, которую вы предоставляете.
- AlphaFold: предсказывает, как белки принимают форму в трехмерном пространстве. Настоящий прорыв в современной биологии.
- DALLE-2: создает невероятно детализированные и реалистичные изображения из текстовых описаний.
Эти системы настолько хороши, что убедили даже тех, кто работал над их разработкой, в том, что они разумны.
Однако, несмотря на успехи, многие из этих систем можно считать технологическими попугаями. Попугаи могут подражать своим владельцам, но не понимают, что они говорят и почему они это говорят.
Точно так же современные системы ИИ могут имитировать шаблоны, которые они изучили из предыдущих данных, не зная истинного контекста решаемой проблемы и не понимая, почему возвращается данный прогноз. Современные системы искусственного интеллекта — это попугаи как в массовом масштабе (GPT-3 был обучен примерно на 3 миллиардах веб-страниц), так и с огромными социальными последствиями.
Конечным результатом такого подражания является то, что современные системы искусственного интеллекта страдают от следующих трех проблем:
- Слепой
- Пристрастный
- Хрупкий
Эти три пункта «В» означают, что современные системы искусственного интеллекта плохо справляются с тонкими, сложными и рискованными приложениями, к которым они применяются. Давайте рассмотрим, как может помочь каузальный подход.
Слепой
Современные системы ИИ слепы к типу отношений между точками данных и не имеют контекста проблем, для решения которых они используются.
Чтобы проиллюстрировать это, рассмотрим взаимосвязь между многолетним опытом и доходом. Как правило, чей-то опыт коррелирует с его доходом: чем больше опыта, тем выше зарплата. Это также верно и в обратном направлении: чем выше доход, тем больше опыт. Эту двустороннюю корреляцию можно назвать ассоциативной связью.
Другой тип связи — причинно-следственная. В этом случае одна переменная вызывает изменение другой. Доход, который кто-то зарабатывает, определяется благодаря многолетнему опыту*. В отличие от ассоциативных отношений причинность односторонняя; опыт человека не зависит от дохода, который он зарабатывает.
Причинные методы предоставляют вам инструменты для отделения ассоциации от причинно-следственной связи. Вмешиваясь в систему и устанавливая чей-то опыт на заданное значение, вы можете наблюдать, как это изменит их доход. С помощью интервенций можно определить тип связи между опытом и доходом (причинно-следственная или ассоциативная) и в каком направлении она течет (опыт вызывает доход). Вы можете думать о вмешательствах как о способе ответа на определенные вопросы типа «что, если»: что, если бы мне было 45 лет, а не 31, сколько бы я зарабатывал?
Современные системы ИИ очень хорошо выявляют ассоциации в данных, и эти отношения имеют основополагающее значение для их успеха. Однако, поскольку эти системы традиционно были слепы к причинно-следственным связям, они неоднократно извлекали из данных вводящие в заблуждение ассоциации. Эти вводящие в заблуждение ассоциации или ложные корреляции могут быть пагубными и опасными для систем ИИ.
Интуитивно корреляция является ложной, если мы не ожидаем, что она сохранится в будущем так же, как в прошлом. Вы можете найти большой список ложных корреляций здесь. Устранение ложных корреляций является основой рандомизированного контролируемого исследования; золотой научный стандарт для доказательства гипотезы.
Причинный ИИ является мощным, поскольку позволяет выявлять и устранять ложные корреляции, используя существующие наблюдаемые данные, без необходимости запуска контролируемого испытания.
Пристрастный
Ложные корреляции повсюду, и современные системы искусственного интеллекта регулярно изучают их. Эти корреляции часто вносят вредную предвзятость, о чем свидетельствуют приведенные ниже примеры:
- Приложение Google Photos классифицировало чернокожих как горилл
- Твиттер радикализировал чат-бота Microsoft
- Обнаружено, что широко распространенное программное обеспечение для прогнозирования преступлений помечает чернокожих обвиняемых как «группу высокого риска в два раза чаще, чем другие»
Чтобы проиллюстрировать, как причинно-следственные методы могут помочь, давайте расширим рассмотренный выше пример прогнозирования дохода, добавив ряд других переменных, показанных в таблице 1.
Из-за исторических погрешностей в наблюдаемых данных, показанных в таблице 1, системы ИИ, обученные на ней, научились ассоциировать женский пол с более низким доходом. Чтобы гарантировать, что ваша модель генерирует полезные и безопасные прогнозы, это смещение необходимо контролировать.
Причинные методы позволяют создать причинно-следственную диаграмму, показывающую отношения между переменными. Каждая стрелка на этой диаграмме показывает, как одна переменная причинно влияет на другую, например. опыт оказывает причинно-следственное влияние на доход. Это позволяет вам явно представлять смещения в данных.
Когда у вас есть причинно-следственная диаграмма, которая, по вашему мнению, точно отражает, как данные связаны друг с другом, ею можно манипулировать, чтобы контролировать ряд различных факторов, включая устранение предвзятости.
Одной из манипуляций может быть вмешательство в пол немецкой женщины-инженера, чтобы увидеть, как это повлияет на их доход. В качестве альтернативы, контролируя пол, вы можете удалить влияние пола из причинно-следственной диаграммы. Результатом является объективная оценка влияния других факторов на доход.
Хрупкий
Современные системы искусственного интеллекта — это деликатные системы, требующие тщательной тонкой настройки, чтобы убедиться, что они настроены правильно. Несмотря на то, что они обучены работе с огромными объемами данных, они все же могут потерпеть неудачу неожиданными или тривиальными с человеческой точки зрения способами. На рис. 4 показано, как алгоритм обработки изображений не может распознать корову, когда она находится на пляже, а не в поле. И это несмотря на то, что во время обучения классификатору изображений были показаны тысячи изображений коров.
Для типов современных систем искусственного интеллекта, упомянутых в этом блоге, способность надежно прогнозировать невидимые и незнакомые данные обычно называется обобщением. Причинное машинное обучение по-другому подходит к обобщению, так как теперь учитываются как наблюдаемые данные, так и соответствующая причинно-следственная диаграмма — см. рис. 5 ниже.
Следовательно, каузальные модели пытаются обобщить поведение при одном наборе условий на поведение при другом наборе. Причинно-следственные модели следует выбирать на основе критериев, проверяющих их устойчивость к изменяющимся условиям, т.е. когда проводятся вмешательства. Ученые следуют этой мантре при проведении контролируемых испытаний для выявления причинно-следственных связей.
В результате причинно-следственные модели более устойчивы к изменяющимся условиям реального мира и могут быстрее адаптироваться к резким изменениям в данных. Эти преимущества побудили исследователей ИИ начать внедрять эти понятия обобщения, взятые из каузального ИИ, в системы, которые они создают.
Заключение
Это было краткое введение в каузальный ИИ, в котором обсуждались некоторые преимущества, которые он дает, и то, как они могут помочь преодолеть слепой, предвзятый и неустойчивый характер современных алгоритмов ИИ.
Вот три ключевых вывода:
- Причинно-следственные диаграммы. Указав отношения между наблюдаемыми данными, вы можете лучше понять проблемную область, уменьшить систематическую ошибку и выполнять манипуляции с диаграммой для моделирования широкого спектра ситуаций.
- Манипулирование. Сценарии можно моделировать, а ответы на вопросы «что, если» можно получить, манипулируя причинным ИИ. Эти манипуляции позволяют глубже изучить проблему и дают возможность ответить на вопросы о гипотетических ситуациях.
- Обобщение. Причинный ИИ лучше обобщает невидимые данные, поскольку он создан для адаптации к изменяющимся условиям, а не только к изменяющимся данным.
Примечания
*Очевидно, что для определения чьего-то уровня дохода требуется нечто большее. Они будут построены в более полной модели, см. раздел «Предвзятость», но для простоты сначала мы будем рассматривать только многолетний опыт как влияющий на доход, а остальные факторы оставим как скрытые переменные.