Я прочитал несколько материалов о глубоком q-обучении и не уверен, что понимаю его полностью. Из того, что я узнал, похоже, что Deep Q-Learning быстрее вычисляет Q-значения, чем помещает их в таблицу, используя NN для выполнения регрессии, вычисления потерь и обратного распространения ошибки для обновления весов. Затем, в сценарии тестирования, требуется состояние, и NN будет возвращать несколько значений Q для каждого действия, возможного для этого состояния. Затем будет выбрано действие с наивысшим значением Q, которое будет выполнено в этом состоянии.
Мой единственный вопрос - как обновляются веса. Согласно этому сайту веса обновляются следующим образом:
Я понимаю, что веса инициализируются случайным образом, R возвращается средой, гамма и альфа устанавливаются вручную, но я не понимаю, как инициализируются и вычисляются Q (s ', a, w) и Q (s, a, w) . Кажется, что мы должны построить таблицу Q-значений и обновить их, как с Q-обучением, или они рассчитываются автоматически в каждую эпоху обучения NN? что я здесь не понимаю? может кто-нибудь лучше объяснить мне такое уравнение?