Глубокое обучение с подкреплением (RL) — это популярный алгоритм машинного обучения, который направлен на решение сложных задач принятия решений на уровне человека или сверхчеловеческого уровня. Успех этих моделей в значительной степени зависит от больших нейронных сетей и огромных выборок сред, чтобы учиться на них, поэтому получение…