Ответственность за сохранение исследований в области RL
Deep RL печально известен своей изменчивостью в обучении, и оказывается, что многие бенчмарки долгое время пренебрегали этим. В своей недавней статье Глубокое RL на краю статистической пропасти Ришаб Агарвал и исследователи из Google Brain и MILA обсуждают субъективность, которая возникает при сравнении RL, когда об этой изменчивости не сообщается. Чтобы исправить это, их статья, удостоенная награды Выдающийся документ на NeurIPS 2021, предлагает более описательную статистику для лучшей оценки алгоритмов RL. Также с этой целью исследователи представляют RLiable, библиотеку Python с открытым исходным кодом.
NeurIPS включен, и RL наделала много шума
NeurIPS развивается полным ходом, и многое происходит, когда дело доходит до RL. Вот что нельзя пропустить:
Выдающиеся бумажные лауреаты:
- Глубокое обучение с подкреплением на краю статистической пропасти
- О выразительности марковской награды
Устные сессии:
- Экспоненциальная нижняя граница для линейно реализуемых MDP с постоянным зазором субоптимальности
- Лучшее из двух миров: стохастические и состязательные эпизодические MDP с неизвестным переходом
- Эффективные контекстуальные бандиты первого порядка: предсказание, распределение и треугольная дискриминация
- Согласованный Беллману пессимизм для автономного обучения с подкреплением
- Интересный объект, любопытный агент: исследование, не зависящее от задачи
- Замена вознаграждений примерами: поиск политик на основе примеров с помощью рекурсивной классификации
- Последовательное каузальное имитационное обучение с ненаблюдаемыми искажающими факторами
Семинары [требуется регистрация]:
- Семинар по глубокому обучению с подкреплением
- 2-й офлайн-семинар по обучению с подкреплением
- Семинар Политическая экономия обучения с подкреплением (PERLS)
- Экологическая теория обучения с подкреплением
Оффлайн RL набирает обороты
У автономного RL много обещаний, поскольку он учится непосредственно на наборах данных. Одна из проблем, однако, состоит в том, чтобы собирать, записывать, аннотировать и обмениваться данными, которые затем можно легко использовать в автономном режиме RL. Google Brain берет на себя эту задачу с помощью своей новой экосистемы наборов данных для обучения с подкреплением (RLDS), которая предлагает большое удобство на каждом этапе конвейера данных. Новичок в офлайн RL? Начните здесь.
COMARL: проблемы и возможности многоагентного обучения с подкреплением
Если вы занимаетесь многоагентным RL, вы найдете эту серию семинаров очень познавательной. В COMARL представлены беседы о мультиагентном RL от ведущих исследователей.
И более…
Это еще не все — недавно появились другие замечательные сообщения в блогах и статьи. Проверь их.
Блоги:
- Пермутационно-инвариантные нейронные сети для обучения с подкреплением
- Метод DeepMind RL обещает лучшее сотрудничество между ИИ и людьми
- Бой снежками обнимающего лица
Документы:
- Обзор обобщения в глубоком обучении с подкреплением
- Глубокое обучение с подкреплением на основе модели Dyna с учетом физики для динамического управления
- Обучение с подкреплением для процедурной генерации контента
- MoleGuLAR: генерация молекул с помощью обучения с подкреплением и чередующимися наградами
Возможности RL в академических кругах
- Институт Вектор имеет много дочерних преподавателей, работающих над RL и нанимающих аспирантов на предстоящий учебный год. Ознакомьтесь с работами Амир-Масуд Фарахманд, Анжела Шоллиг, Анимеш Гарг, Даниэль М. Рой, Флориан Шкурти, Джефф Клун, Джозеф Дж. Уильямс, Паскаль Пупар. , Скотт Саннер, Шейла Макилрайт.
- Лаборатория автономии и обучения когнитивных роботов (CoRAL) ищет соискателей докторской степени на осень 2022 года. Заявки подаются через портал приема Purdue CS.