Публикации по теме 'reinforcement-learning'


# 3: RL может спасти исследования RL, NeurIPS здесь, оффлайн RL набирает обороты, проверьте COMARL
Ответственность за сохранение исследований в области RL Deep RL печально известен своей изменчивостью в обучении, и оказывается, что многие бенчмарки долгое время пренебрегали этим. В своей недавней статье Глубокое RL на краю статистической пропасти Ришаб Агарвал и исследователи из Google Brain и MILA обсуждают субъективность, которая возникает при сравнении RL, когда об этой изменчивости не сообщается. Чтобы исправить это, их статья, удостоенная награды Выдающийся документ на..

Раскрытие потенциала AWS DeepRacer
Раскрытие потенциала AWS DeepRacer Изучение машинного обучения с помощью автономных гонок Автор: Айян Шамшад Amazon Web Services (AWS) продолжает производить революцию в среде облачных вычислений, предоставляя полный набор услуг в постоянно меняющейся экосистеме. AWS DeepRacer , новаторская платформа, сочетающая в себе возможности обучения с подкреплением и беспилотных автомобилей, является одним из ее выдающихся предложений. Этот блог отправит вас в захватывающее..

Консенсус в многоагентных системах
В предыдущих статьях я описал, что такое Rendezvous в мультиагентных системах. Теперь в этой статье я обобщаю проблему от всех агентов, «встречающихся» в физической точке, до соглашения о каком-либо состоянии. Консенсус — это обобщенное рандеву. Консенсус — это более общий термин, который может означать конвергенцию в различных контекстах, от физических объектов, таких как встречи мобильных роботов, до динамики мнений в социальной сети. До этого я также показал форму контроллера..

Часть 2  — «Построение глубокой Q-сети для игры в Gridworld» — «Катастрофическое забвение и опыт…
В этой статье поговорим о проблеме в модели Q-обучения Vanilla: Катастрофическое забывание. Мы решим эту проблему с помощью воспроизведения опыта и увидим улучшения, которые мы сделали в игре GridWorld. Добро пожаловать во вторую часть руководств по Deep Q-network. Это продолжение Части 1 . Если вы не читали часть 1, я настоятельно рекомендую пройти ее, так как многие коды и пояснения в этой статье будут напрямую связаны с уже объясненными в Часть 1 . До сих пор в части 1 !!..

Потоковая передача финансовых данных с использованием Alpaca и Streamlit
Это руководство предназначено для потоковой передачи финансовых данных, в частности данных Open, High, Low, Close и Volume, с использованием потокового API Alpaca, а также для их построения в режиме реального времени с использованием Streamlit. Итак, урок можно разделить на три части. API Альпака Стриминг v2 Сторожевой таймер для отслеживания изменений файла по мере поступления новых данных и повторного запуска streamlit. Эта функциональность поставляется из коробки в Streamlit...

Rlens: структура оптимизации компилятора с помощью обучения с подкреплением
Обучение с подкреплением становится ключевым компонентом искусственного интеллекта. В основе обучения с подкреплением лежит марковский случайный процесс. Во время процесса агент будет пытаться найти наилучшую стратегию в пространстве действий. Введение: Проблема распределения регистров — это проблема NP-Complete, которая направлена ​​на сопоставление виртуального регистра с физическим и обычно решается с использованием эвристической стратегии. Основная причина в том, что..

Повышение уровня — Понимание обучения Q
В моей первой серии уроков я почти охватил все основные термины, а также вы, должно быть, получили четкое представление о том, как работает обучение с подкреплением. Вдобавок к этому мы видели разные подходы к обучению с подкреплением, такие как на основе ценностей, на основе политик, на основе моделей. Предполагая, что вы читали мою предыдущую статью , я сразу перейду к важным концепциям RL. Герой темы этой статьи — Q Learning Итак, давайте начнем понимать реализацию Q-обучения...