Прежде чем углубиться в настоящее глубокое обучение с подкреплением, я приведу вам одну аналогию в виде одной истории. Представьте, что мы использовали стиратель памяти или устройство, которое называлось Neuralyzer в MIB на одном человеке. Пусть «A» будет именем этого человека. Он забыл все из прошлого. Теперь мы помещаем его на неизвестный остров, где у него нет никаких знаний, и он должен исследовать все самостоятельно. Чтобы выжить, A должен выжить, чтобы выжить в основных и рудиментарных потребностях, например, в поисках пищи, убежища. Но А не знает, что мне можно есть. Он увидел несколько красных фруктов, лежащих на земле под одним деревом. Он подобрал и съел. Ему было хорошо, и он отметил в своей памяти, что этот предмет утолял мой голод. Затем он наблюдал за огнем. Он думал, что это нечто вроде красных фруктов, которые я могу есть. В этой попытке он получил шрам от ожога на руке. А понял, что эта желтая штука опасна для меня. Точно так же он пробовал и тестировал многие вещи, чтобы выжить. Иногда он получал хорошие результаты, а иногда нет.

Точно так же он продолжал добавлять все, каждый опыт следа и тестирования в свою базу знаний и улучшал его для следующих действий. В конечном итоге он нашел правильный способ справиться с различными сценариями через определенное время благодаря знаниям, которые он собрал.

Если вы поняли вышеприведенную историю, то мы попробуем преобразовать ее в обучение с подкреплением. Фактическое значение подкрепления — это действие усиления или или установление убеждения или модели поведения.

Здесь, в сценарии обучения с подкреплением, A известен как Агент.

Агент — это кто-то, кто пытается учиться или предпринимает какие-либо действия в Среде.

Окружающая среда: наш остров — это окружающая среда, где происходят все действия. Агенты выполняют все действия в среде.

Награда: A получил удовольствие от употребления красных фруктов. Таким образом, в соответствии с этим вознаграждение является положительной обратной связью для агента. Обратная связь измеряет успех или неудачу.

Действия. Все возможные шаги, которые выполняет A, называются действиями. Некоторые действия принесут вознаграждение [положительный отзыв], некоторые действия принесут наказание [отрицательный отзыв]. A должен предпринять действия, чтобы чего-то достичь или чему-то научиться.

Действия могут быть выбраны из дискретного подмножества всех возможных действий и выбраны на основе прошлых наблюдений. [Для простоты будем рассматривать дискретное подмножество действия].

Состояние: текущее состояние, являющееся результатом определенного воздействия на окружающую среду. Состояние меняется сразу после выполнения действия. После совершения действия среда реагирует на него, что приводит к изменению текущего действия. Между двумя действиями есть состояние. Разные действия приводят к разным состояниям.

Политика. Стратегия А, которой должен следовать А, чтобы получить быструю и лучшую еду, является политикой. На основе текущего этапа будет выполнено следующее действие, но какое действие мы должны выполнить, чтобы вознаграждение агента было максимальным, будет решаться на основе определенных правил. Эти правила известны как политика. Решение о том, какая еда ближе к A, а также получит максимальное вознаграждение [удовлетворение], решается с помощью политики. Политика обозначается π . Политика может быть вне политики или в политике. мы обсудим это дальше.

Ценность: ожидается долгосрочное вознаграждение. В случае A это будет хорошее здоровье или долгая устойчивость.

Значение Q: то же самое, что и значение, но также включает дополнительный параметр, который является текущим действием.

В контролируемом обучении мы находим функциональное сопоставление из помеченных данных и прогнозируем метки на основе этого. В неконтролируемом обучении мы находим основные закономерности, тенденции, которые будут полезны для кластеризации или ассоциации. Но в обучении с подкреплением у нас нет обучения или каких-либо данных. Он обязан учиться на своем опыте, подобно человеческому. Мы нажимаем и пробуем некоторые действия, а затем, наблюдая за их результатами, решаем, что делать дальше. именно так наши Знания обновляются, и мы используем их для наших следующих действий.

Наша душевная цель состоит в том, чтобы предпринять такие действия, чтобы мы могли максимизировать нашу положительную награду. Глубокое обучение с подкреплением — это инструмент для обучения агента тому, как оптимально действовать в окружающей среде. Как и в нашей аналогии, A хочет быть в безопасности и есть пищу, чтобы увеличить срок своего пребывания в должности.

Как известно, вознаграждение работает как обратная связь. Математическое и базовое представление функции вознаграждения:

Математика плохо работает с бесконечностью, потому что бесконечность — это не число, поэтому она становится неопределенной, если мы включаем бесконечность в наше уравнение. Мы должны количественно определить некоторые параметры на определенном уровне. Чтобы решить эту проблему, мы можем включить общую сумму вознаграждения со скидкой.

Где Гамма является коэффициентом дисконтирования. Он находится между 0 и 1. Значение, приближающееся к 0, указывает на более высокий уровень скидок. Значение, приближающееся к 1, указывает на меньшую скидку. Мы придаем большее значение ближайшим событиям и меньшее значение долгосрочным событиям для снижения общего вознаграждения.

Теперь А предпринял определенные действия. Но какова ценность этого действия для достижения конечной цели? это действие было хорошим? чтобы узнать значение действия для конкретного состояния, мы используем функцию Q.

Q-функция: Q означает качество. Эффективность текущего действия по достижению вознаграждения обозначается функцией Q. Мы увидим больше о функции Q в обучении Q. Это известно как ценностное обучение.

Награды ценят все! мы все работаем за вознаграждение, чтобы Агенты!!!

Конец ?

Нет !! Обучение с подкреплением довольно обширно и богато концепциями. Я не могу охватить все в одном блоге. Во второй части этого блога я дам вам представление о том, как на самом деле работает обучение с подкреплением. Есть много концепций, которые я не освещал в этом блоге, таких как исследование, эксплуатация, цепи Маркова, процесс принятия решений по Маркову, типы алгоритмов обучения с подкреплением, такие как Q-обучение, SARSA, функция ценности, итерации, уравнение Беллмана и т. д., но я верю в очистку. основы, прежде чем приступать к более серьезным задачам.

Учебное ПО MIT Open — один из хороших источников для обучения глубокому обучению с подкреплением.

СПАСИБО!!