Публикации по теме 'maze'


Лабиринт: обучение с подкреплением — Часть 2
В предыдущей части мы формализовали задачу о лабиринте и обсудили состояния, целевое состояние и функцию вознаграждения задачи о лабиринте. Мы сформулировали функцию вознаграждения таким образом, чтобы позволить агенту изучить оптимальный путь к целевому состоянию, соблюдая при этом ограничения среды. Более того, мы обучали агента среде. В этой части мы обсудим ограничения этого подхода, а затем введем объекты в среду и внесем изменения в функцию вознаграждения. Ограничения Теперь..