Ответственность за сохранение исследований в области RL

Deep RL печально известен своей изменчивостью в обучении, и оказывается, что многие бенчмарки долгое время пренебрегали этим. В своей недавней статье Глубокое RL на краю статистической пропасти Ришаб Агарвал и исследователи из Google Brain и MILA обсуждают субъективность, которая возникает при сравнении RL, когда об этой изменчивости не сообщается. Чтобы исправить это, их статья, удостоенная награды Выдающийся документ на NeurIPS 2021, предлагает более описательную статистику для лучшей оценки алгоритмов RL. Также с этой целью исследователи представляют RLiable, библиотеку Python с открытым исходным кодом.

NeurIPS включен, и RL наделала много шума

NeurIPS развивается полным ходом, и многое происходит, когда дело доходит до RL. Вот что нельзя пропустить:

Выдающиеся бумажные лауреаты:

Устные сессии:

Семинары [требуется регистрация]:

Оффлайн RL набирает обороты

У автономного RL много обещаний, поскольку он учится непосредственно на наборах данных. Одна из проблем, однако, состоит в том, чтобы собирать, записывать, аннотировать и обмениваться данными, которые затем можно легко использовать в автономном режиме RL. Google Brain берет на себя эту задачу с помощью своей новой экосистемы наборов данных для обучения с подкреплением (RLDS), которая предлагает большое удобство на каждом этапе конвейера данных. Новичок в офлайн RL? Начните здесь.

COMARL: проблемы и возможности многоагентного обучения с подкреплением

Если вы занимаетесь многоагентным RL, вы найдете эту серию семинаров очень познавательной. В COMARL представлены беседы о мультиагентном RL от ведущих исследователей.

И более…

Это еще не все — недавно появились другие замечательные сообщения в блогах и статьи. Проверь их.

Блоги:

Документы:

Возможности RL в академических кругах