Используют ли мыши дистрибутивный RL? DeepMind говорит, что да

Исследователи DeepMind обнаружили параллели между реакцией мозга на дофамин и популярной теорией ИИ - распределенного обучения с подкреплением. Полученные данные подтверждают потенциал распределенного обучения с подкреплением и побудили исследователей DeepMind с гордостью заявить, что «теперь исследования ИИ находятся на правильном пути».

В новом исследовании исследователи из DeepMind и Гарвардского университета проанализировали активность дофаминовых клеток у мышей и обнаружили, что дофаминовые нейроны предсказывают вознаграждение в соответствии с различными уровнями «пессимистического» и «оптимистичного» состояний. Используя распределительные алгоритмы TD, одну из простейших форм распределительной RL, исследователи надеются изучить и объяснить влияние дофамина на поведение, эмоции и многое другое.

В экспериментах мыши получали неизвестное количество наград, и цель состояла в том, чтобы оценить, будет ли активность дофаминовых нейронов более согласовываться со стандартной TD (временная разница) или распределенной TD. Результаты показывают, что между отдельными дофаминовыми клетками существуют значительные различия - одни предсказывают очень большие вознаграждения, а другие - очень маленькие.

Во многих случаях - особенно в реальных ситуациях - будущие результаты вознаграждения - это не полностью известная величина, а скорее прогнозы, основанные на определенном поведении, которое имеет некоторую случайность. Например, если агент ИИ-гуманоид в симуляции пытается перепрыгнуть через виртуальную пропасть, предсказанных наград будет два: успех (достижение другой стороны) или неудача (падение в пропасть). В отличие от стандартного алгоритма TD, который учится предсказывать среднее будущее вознаграждение, распределительные алгоритмы TD могут научиться предсказывать все будущие вознаграждения с двухпиковым распределением потенциальных доходов. Технология обучения с распределенным подкреплением успешно использовалась для создания агентов в таких играх, как Go и StarCraft.

Исследование ставит перед нейробиологами множество новых вопросов. Что, если мозг выборочно «слушает» оптимистичные или пессимистичные дофаминовые нейроны - может ли это быть причиной импульсивного поведения или депрессии? Как только животное узнает механизм назначения вознаграждений, как это представление будет использоваться в его последующих задачах? И как оптимистическая изменчивость настроения между дофаминовыми клетками связана с другими известными вариабельными формами в головном мозге?

Исследователи DeepMind надеются способствовать развитию исследований в области нейробиологии, задавая такие вопросы, и тем самым формируют благоприятный круг, который также принесет пользу исследованиям искусственного интеллекта.

Статья Распределительный код ценности в обучении с подкреплением на основе дофамина посвящена теме Природа.

Автор: Рейна Ци Ван | Редактор: Майкл Саразен

Думаете о том, чтобы внести свой вклад в синхронизированную проверку? Поделиться моими исследованиями приглашает ученых поделиться своими научными открытиями с глобальными энтузиастами ИИ.

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на участие в Партнерской программе Insight, чтобы получить бесплатный полный отчет в формате PDF.

Используют ли мыши дистрибутивный RL? DeepMind говорит, что да

Вопросы по теме