[AAMAS 2018] Q-сеть глубокого анализа политик для многоагентных систем

Полный документ AAMAS 2018

Ключевые слова

Глубокое обучение с подкреплением, многоагентная система (MAS), Q-сеть глубокого анализа политик (DPIQN)

Введение

В последнее десятилетие большое внимание уделялось моделированию и использованию поведения других агентов в мультиагентной системе (MAS). Однако в такой системе окружающая среда, воспринимаемая каждым агентом, со временем меняется из-за действий, предпринимаемых другими агентами, вызывая нестационарность в наблюдениях каждого агента. Нестационарная среда запрещает агенту предполагать, что другие имеют определенные стратегии и являются стационарными, что приводит к повышенной сложности и трудностям в моделировании их поведения.

В последние годы глубокое обучение с подкреплением (DRL) показало большие успехи в самых разных стационарных условиях с одним агентом. Благодаря этим достижениям исследователи начали расширять DRL на многоагентные домены. В последнее время обучение представлению в виде вспомогательных задач использовалось в нескольких методах DRL, поскольку вспомогательные задачи предоставляют агентам DRL гораздо более богатое представление функций, которые потенциально более подходят для моделирования нестационарных систем.

В свете вышеуказанных проблем мы представляем Q-сеть глубокого вывода о политике (DPIQN), которая направлена на обучение и управление одним агентом для взаимодействия с другими агентами в MAS. DPIQN состоит из трех основных частей: модуля извлечения признаков, модуля изучения значений Q и модуля изучения вспомогательных свойств политик. Первые два модуля отвечают за изучение значений Q, а последний модуль фокусируется на изучении скрытого представления из политик других агентов. Мы называем изученное скрытое представление «признаками политики» и предлагаем включить их в модуль обучения значениям Q для получения лучших значений Q. Мы также предлагаем расширенную версию DPIQN, называемую Q-сетью глубокого рекуррентного вывода о политике (DRPIQN), для обработки частичной наблюдаемости, возникающей из-за сложности прямого вывода или вывода о намерениях других агентов только из нескольких наблюдений.

Методология

Обзор предлагаемых архитектур

ДПИКН

Основная цель DPIQN — улучшить качество представления признаков состояния агента в многоагентных настройках. Чтобы улучшить скрытые представления, чтобы управляемый агент мог использовать действия других агентов в MAS, DPIQN изучает «функции политики» других агентов с помощью вспомогательных задач. Функции политики определяются как скрытое представление, используемое управляемым агентом для вывода политики целевого агента, и представлены в виде вектора h(PI).

DRPIQN

DRPIQN - это вариант DPIQN, мотивированный DRQN для обработки частичной наблюдаемости с упором на уменьшение шума представления скрытого состояния из-за изменения стратегии других агентов в среде. Например, политика соперника в соревновательной задаче может переходить из оборонительного режима в наступательный в эпизоде, что приводит к увеличению сложности адаптации Q-функции и аппроксимированного вектора признаков политики h(PI) управляемого агент к таким вариациям. В таких условиях вывод политики целевого агента становится проблемой частично наблюдаемого марковского процесса принятия решений (POMDP): намерение целевого агента не может быть напрямую выведено или выведено только из нескольких наблюдений.

Обучение с адаптивной потерей данных

Наша методология обучения основана на методологии DQN [1] с модификацией определения функции потерь. Мы предлагаем принять два разных члена функции потерь L (Q) и L (PI) для обучения наших моделей. Первая — это стандартная функция потерь DQN. Последняя называется потерей вывода политики и получается путем вычисления перекрестной энтропийной потери между предполагаемой политикой и однократным вектором действия целевого агента. Совокупная функция потерь может быть выражена как:

где λ называется коэффициентом адаптивного масштабирования L(Q). Функция λ заключается в адаптивном масштабировании L(Q) на разных этапах тренировочного процесса. Он определяется как:

Интуиция, лежащая в основе λ, заключается в том, что если контролируемый агент обладает достаточными знаниями о целевом агенте, он может использовать эти знания для принятия лучшего решения.

Обобщение

Мы расширили модуль изучения функций политик в DPIQN и DRPIQN, включив несколько модулей вывода политик для изучения политик других агентов по отдельности, как показано на рис. 2.

Экспериментальные результаты и анализ

Среда

Мы проводим наши эксперименты в среде футбольной игры, показанной на рис. 3. Футбольное поле представляет собой мир сетки, состоящий из нескольких сеток 32 × 32 пикселей RGB и разделенный на две половины. Игра начинается с управляемого агента и соавтора, случайно расположенных на левой половине поля, и противников, случайно расположенных на правой половине поля, кроме ворот и пограничных зон. Начальное владение мячом и режимы агентов определяются случайным образом для каждого эпизода. Каждый агент в поле выбирает одно из пяти возможных действий: двигаться N, S, W, E и стоять на месте на каждом временном шаге.

Сравнение производительности в сценариях 1 и 1

В таблице 1 сравниваются средние вознаграждения управляемого агента среди трех типов режимов агента противника на этапе тестирования для четырех типов моделей, включая DQN [1], DRQN [2], DPIQN и DRPIQN. Гибридный режим означает, что режим противника является наступательным или оборонительным и определяется случайным образом в начале эпизода. Второй и третий столбцы таблицы 1 соответствуют режимам соперника на этапах обучения и тестирования соответственно.

В таблице 1 результаты показывают, что DPIQN и DRPIQN превосходят DQN и DRQN во всех случаях. Результаты показывают, что включение особенностей политики оппонента в модуль изучения значений Q действительно помогает DPIQN и DRPIQN получать лучшие значения Q по сравнению с DQN и DRQN. На рис. 4 видно, что DPIQN и DRPIQN обучаются намного быстрее, чем DQN и DRQN.

Совместная работа с агентом на основе правил

В табл. 2 сравниваются средние вознаграждения команды управляемого агента в сценарии 2 vs 2 для четырех типов моделей, используемых для реализации управляемого агента. И соавтор, и противники являются агентами на основе правил и настроены на гибридный режим. Во втором столбце таблицы 2 указано, какие функции политики агента на основе правил изучаются агентами DPIQN и DRPIQN на этапе обучения. «Оба» означает, что агенты DPIQN и DRPQIN изучают особенности политики как соавтора, так и противников, в то время как «только C»/«только O» означает, что наши агенты учитывают только особенности политики соавтора/оппонентов. , соответственно.

Из результатов в таблице 2 видно, что агенты DPIQN и DRPIQN намного превосходят агенты DQN и DRQN в сценарии 2 против 2. На рис. 5 снова можно наблюдать, что кривые обучения DPIQN и DRPIQN растут намного быстрее, чем кривые DQN и DRQN.

Сотрудничество с Learning Agent

Чтобы проверить способность нашей модели сотрудничать с обучающимся сотрудником, мы проводим дальнейшие эксперименты в сценарии 2 против 2. Каждый из трех типов моделей, включая DQN, FPDQN [3] и DPIQN, должен объединиться с обучающимся агентом DQN, чтобы играть против команды противника. Противоборствующие агенты основаны на правилах и настроены на гибридный режим.

На рис. 6 представлены кривые обучения трех команд на этапе обучения. Можно заметить, что кривые обучения как DPIQN, так и FPDQN растут намного быстрее и стабильнее, чем DQN. В Таблице 3 мы сообщаем скорость начисления очков для каждого управляемого агента, процент розыгрышей, а также результаты оценки на этапе тестирования. Мы наблюдаем, что агент DPIQN набирает очки только в 31,54% случаев, результат указывает на то, что DPIQN лучше сотрудничает со своим товарищем по команде и помогает ему посредством моделирования соавтора.

Заключение

В этой статье мы представили подробный дизайн DPIQN и его варианта DRPIQN, подходящего для многоагентных сред. Мы представили концепцию особенностей политики и предложили включить их как скрытый вектор в Q-сети управляемого агента. Мы обучили наши модели с помощью адаптивной функции потерь, которая направляет наши модели для изучения особенностей политики, прежде чем изучать значения Q. Мы расширили архитектуры DPIQN и DRPIQN для моделирования нескольких агентов, чтобы он мог фиксировать поведение других агентов в среде. Мы провели эксперименты для двух сценариев футбольных игр и продемонстрировали, что DPIQN и DRPIQN превосходят DQN и DRQN в различных условиях.

Скачать статью

[arXiv]
[AAMAS]

Ссылайтесь на эту статью следующим образом:

З.-В. Хонг, С.-Ю. Су, Т.-Ю. Шанн, Ю.-Х. Чанг и С.-Ю. Ли, «Q-сеть глубокого анализа политик для многоагентных систем», в Proc. АКМ Интерн. конф. Автономные агенты и мультиагентные системы (AAMAS), стр. 1388–1396, июль 2018 г.

Ссылка

[1] Владимир Мних, Корай Кавуккуоглу, Дэвид Сильвер, Андрей А. Русу, Джоэл Венесс, Марк Г. Беллемаре, Алекс Грейвс, Мартин Ридмиллер, Андреас К. Фиджеланд, Георг Островски и др. 2015. Контроль на уровне человека посредством глубокого обучения с подкреплением. Природа, том. 518, нет. 7540, стр. 529–533 (февраль 2015 г.).
[2] Мэтью Дж. Хаускнехт и Питер Стоун. 2015. Глубокое рекуррентное Q-Learning для частично наблюдаемых MDP. arXiv:1507.06527 (июль 2015 г.).
[3] Джейкоб Ферстер, Нантас Нарделли, Грегори Фаркуар, Триантафиллос Афурас, Филип Х. С. Торр, Пушмит Кохли и Шимон Уайтсон. 2017. Стабилизирующий повтор опыта для глубокого мультиагентного обучения с подкреплением. В проц. Междунар. конф. Машинное обучение (ICML). стр. 1146–1155.