Сотрудничество и конкуренция в приложениях для обучения с подкреплением

"Искусственный интеллект"

Сотрудничество и конкуренция в приложениях для обучения с подкреплением

Обзор многоагентной техники актера-критика OpenAI.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 100 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:

Последовательность | Substack
Подпишитесь, чтобы быть в курсе самых актуальных проектов и исследовательских работ в мире ИИ. Нам доверяют более 110 000…thesequence.ai

Кооперация — это неологизм, обычно используемый для описания сбалансированных отношений между сотрудничеством и конкуренцией. Конкуренция является одним из отличительных признаков эволюции и одной из наиболее устоявшихся тенденций в социальной среде, поскольку люди объединяются для достижения конкретной цели, оставаясь при этом конкурентоспособными для достижения других целей. Многоагентное обучение с подкреплением (MARL) — это дисциплина пространства глубокого обучения, которая напоминает нашу социальную среду, поскольку агентам необходимо взаимодействовать для выполнения конкретной задачи. Научиться сотрудничать и конкурировать кажется очевидным шагом в эволюции MARL. Однако большинство методов MARL сосредоточены на обучении агентов изолированно, что ограничивает появление совместного поведения. Одно из самых интересных исследований в этой области было проведено OpenAI в исследовательской статье, в которой предлагается алгоритм MARL, позволяющий агентам учиться сотрудничать и конкурировать друг с другом в групповой среде.

Вызов сотрудничества

Среды MARL создают серьезные проблемы для создания конкурентных политик между агентами. Начнем с того, что многоагентные среды редко имеют стабильное равновесие Нэша, из-за чего агентам приходится постоянно адаптировать свою политику. В результате существует внутреннее давление на агентов, чтобы они всегда становились умнее и не обязательно сотрудничали. Неудивительно, что мы видим модели MARL, которые сосредоточены на разжигании конкуренции или сотрудничества, но редко на том и другом одновременно.

Самый простой подход к обучению в многоагентных условиях — это использование независимых обучающихся агентов. Это подход, которому следуют популярные алгоритмы обучения с подкреплением, такие как Q-Learning или градиенты политик, но они показали, что они плохо подходят для многоагентных сред. Проблема с традиционными методами обучения с подкреплением в многоагентных сценариях связана с централизованным подходом к обучению и оценке политики. В многоагентных средах политика каждого агента меняется по мере обучения, в результате чего среда становится нестационарной с точки зрения любого отдельного агента, что не может быть объяснено изменениями в собственной политике агента. Это создает проблемы со стабильностью обучения и препятствует прямому использованию воспроизведения прошлого опыта, что имеет решающее значение для стабилизации глубокого Q-обучения. Методы градиента политики, с другой стороны, обычно демонстрируют очень высокую дисперсию, когда требуется координация нескольких агентов.

Мультиагентный актер-критик

Чтобы преодолеть некоторые проблемы традиционных методов обучения с подкреплением, OpenAI представила метод, который сочетает централизованное обучение с децентрализованным выполнением, позволяя политикам использовать дополнительную информацию для облегчения обучения. Названный MADDPG (поскольку он распространяет принципы другого алгоритма обучения с подкреплением, называемого DDPG, на многоагентные настройки), алгоритм OpenAI позволяет агентам учиться на своих собственных действиях, а также на действиях других агентов в среде.

В модели MADDPG каждый агент рассматривается как «актер», который получает совет от «критика», который помогает актеру решить, какие действия следует подкреплять во время обучения. Цель критика — попытаться предсказать ценность (т. е. вознаграждение, которое мы ожидаем получить в будущем) действия в определенном состоянии, которое используется агентом — актор — обновить его политику. Используя прогнозы будущих вознаграждений, MADDPG обеспечивает некоторую стабильность с течением времени по сравнению с традиционными методами обучения с подкреплением, поскольку фактические вознаграждения могут значительно различаться в многоагентных средах. Чтобы сделать возможным обучение нескольких агентов, которые могут действовать глобально скоординированным образом, MADDPG позволяет критикам получать доступ к наблюдениям и действиям всех агентов. Следующая диаграмма иллюстрирует основные конструкции модели MADDPG.

Ключевой вклад метода MADDPG заключается в том, что агентам не нужно обращаться к центральному критику во время тестирования, и вместо этого они действуют на основе своих наблюдений в сочетании со своими прогнозами поведения других агентов». Поскольку централизованная критика изучается независимо для каждого агента, этот подход также можно использовать для моделирования произвольных структур вознаграждения между агентами, включая состязательные случаи, когда вознаграждения противоположны.

MADDPG в действии

Чтобы увидеть ценность MADDPG, давайте возьмем простую игру, в которой одни агенты (красные точки) пытаются преследовать других агентов (зеленые точки), прежде чем они доберутся до воды (синие точки). Используя MADDPG, красные агенты учатся объединяться друг с другом, чтобы преследовать одного зеленого агента, получая более высокую награду. Зеленые агенты тем временем научились разделяться, и пока один преследуется, другой пытается приблизиться к воде.

Команда OpenAI протестировала MADDPG в серии экспериментов, в которых оценивалось как кооперативное, так и конкурентное поведение агентов.

а) Совместная коммуникация. Эта задача состоит из двух взаимодействующих агентов, говорящего и слушающего, которые находятся в среде с тремя ориентирами разного цвета. В каждом эпизоде слушатель должен перейти к ориентиру определенного цвета и получить вознаграждение в зависимости от расстояния до нужного ориентира.

б) Хищник-жертва. В этом варианте классической игры хищник-жертва N более медленных взаимодействующих агентов должны преследовать более быстрого противника в случайно сгенерированной среде с L большими ориентирами, преграждающими путь.

c) Совместная навигация. В этой среде агенты должны сотрудничать с помощью физических действий, чтобы достичь набора из L ориентиров. Агенты наблюдают за относительным положением других агентов и ориентиров и получают коллективное вознаграждение в зависимости от близости любого агента к каждому ориентиру.

d) Физический обман. Здесь N агентов сотрудничают, чтобы достичь одного целевого ориентира из N ориентиров. Они вознаграждаются в зависимости от минимального расстояния любого агента до цели (поэтому только один агент должен достичь целевого ориентира).

Во всех сценариях MADDPG превзошел традиционный метод обучения с подкреплением, как показано на следующей диаграмме.

В последнее время мы видим, что конкуренция становится более важным компонентом сценариев MARL. Результаты, достигнутые OpenAI и DeepMind в многопользовательских играх, таких как Dota2 или Quake III, соответственно, являются яркими примерами того, что сотрудничество является очень достижимой целью в средах MARL. Такие методы, как MADDPG, могут помочь упростить внедрение конкурентных многоагентных методов. Команда OpenAI открыла первоначальную версию MADDPG на GitHub.

Сотрудничество и конкуренция в приложениях для обучения с подкреплением

"Искусственный интеллект"