Публикации по теме 'reinforcement-learning'


Нетехническое введение в обучение с подкреплением (часть 1)
Нет никакой математики. Я обещаю. Хорошо, только что поняла, есть такие. Вчера я проглотил последний сезон Кремниевой долины . Это шоу последовательно комично рассматривает все последние техно (искусственный интеллект, криптовалюту). Из классификатора Хот-дог - не хот-дог , ботов для криптовалюты, децентрализованного Интернета, чат-ботов, которые научились общаться с другими ботами, алгоритмов суперсжатия и даже инкубации фермы кликов . В последний сезон они дал нам вкус..

Машинное обучение Azure Глубокое обучение с подкреплением
Используя Open Gym и Tensorflow, Keras Вариант использования Используйте обучение с подкреплением и обучите глубокую модель RL Используйте Open Gym и Tensorflow Используйте Керас Установить зависимости Оригинальный учебник воспроизведен из — https://github.com/nicknochnack/TensorflowKeras-ReinforcementLearning/blob/master/Deep%20Reinforcement%20Learning.ipynb В этом руководстве показаны вышеперечисленные работы в службе машинного обучения Azure. Установить зависимости..

Первые шаги перед применением обучения с подкреплением в торговле
В алгоритмической торговле существует множество методологий - от автоматического входа в сделку и точек закрытия на основе технических и фундаментальных индикаторов до интеллектуальных прогнозов и принятия решений с использованием сложной математики и, конечно же, искусственного интеллекта. Обучение с подкреплением здесь выделяется как Святой Грааль - не нужно делать промежуточные прогнозы или создавать правила - вам просто нужно определить цель, и алгоритм сам выучит точные правила!..

Лабиринт: обучение с подкреплением — Часть 2
В предыдущей части мы формализовали задачу о лабиринте и обсудили состояния, целевое состояние и функцию вознаграждения задачи о лабиринте. Мы сформулировали функцию вознаграждения таким образом, чтобы позволить агенту изучить оптимальный путь к целевому состоянию, соблюдая при этом ограничения среды. Более того, мы обучали агента среде. В этой части мы обсудим ограничения этого подхода, а затем введем объекты в среду и внесем изменения в функцию вознаграждения. Ограничения Теперь..

Изучение мира обучения с подкреплением: подробное руководство по алгоритмам и методам
Обучение с подкреплением — это тип машинного обучения, в котором агенты обучаются действовать в окружающей среде, чтобы максимизировать вознаграждение. Он часто используется в приложениях робототехники и искусственного интеллекта, а также при разработке интеллектуальных систем для видеоигр, беспилотных автомобилей и других сложных систем. При обучении с подкреплением агент обучается действовать в окружающей среде, чтобы максимизировать вознаграждение. Обычно это делается путем проб и..

DouZero: освоение доудичжу с помощью обучения с подкреплением
Объяснение сильной системы искусственного интеллекта для DouDizhu, самого популярного китайского покера Начиная с AlphaGo и AlphaZero , искусственный интеллект (AI) за последние годы добился обнадеживающего прогресса, обойдя лучших игроков в го, шахматах, техасском холдеме, DOTA, Starcraft и т. Д. Итак, какова следующая задача? ? В этой статье я хотел бы представить документ ICML , в котором представлена ​​новая система искусственного интеллекта для китайской игры в покер..

Введение в глубокое обучение с подкреплением
Глубокое обучение с подкреплением — это результат сочетания двух хорошо известных подходов к машинному обучению: Глубокое обучение и Обучение с подкреплением . Его главная цель — создать единого агента, способного справиться с любой задачей человеческого уровня, но добиться на ней сверхчеловеческих результатов. Известным ИИ, реализующим эту технику, является AlphaGo , который в марте 2016 года впервые в истории победил игрока в го с 9 данами Ли Седоля со счетом 4:1, играя против него..