LISTING 2.2: Sarsa on-policy TD control algorithm.

В отличие от Sarsa, Q-learning [100] – это off-policy алгоритм TD управления, который непосредственно аппроксимирует Q* независимо от применяемой стратегии. Эксперимент определяется как (s,a,r,s`), в нём агент начинает в состоянии s, выполняет действие a, получает вознаграждение r и переходит в состояние s`. Затем обновление Q(s,a) выполняется путем получения максимально возможного вознаграждения за действие от s` и применения следующего обновления:

Q(s_t, a_t) ← Q(s_t, a_t) + α[r + γmax_a Q(s_t+1, a) − Q(s_t, a_t)] (2.18)

Было доказано, что Q-learning в конечном итоге находит оптимальную стратегию для любого заданного кППР, если нет никаких ограничений на количество попыток, он пробует действие в любом состоянии. АлгоритмQ-learningприведенниже:

ВарианталгоритмаQ-learningиспользуется в значительной степени в данной работе, о нём подробнее в соответствующей секции.

Различие между двумя методамиSARSAи Q-learning довольно тонкое. Sarsa является on-policyметодом, что означает – он следует стратегии управления, когда предпринимает действия, которые будут использоваться для обновления Q-значений. Q-learning – этоoff-policy метод, он предполагает, что оптимальная стратегия соблюдается всегда, и поэтому выбирает наилучшее действие. Основное различие заключается в том, какие будут получены награды. Это различие хорошо иллюстрирует пример из книги Саттона и Барто – «Обучение с подкреплением» [93].

Мир-сетка, показанный на рис.2.4, является частью эпизодической задачи без отсрочки γ=1. Задача состоит в том, чтобы перейти от состояния начала S к состоянию цели G, используя действия вверх, вниз, вправо и влево, не срываясь со скалы. Агент получает вознаграждение -1 на каждой смене состояния, за исключением попадания всостояние «скала», где он получает -100, и затем отправляется обратно в начало S. Выполняя задачу, агент выбирает действие согласно E-greedy с постоянным значением E=0.1.

Рис 2.5: Результаты выполнения задачи [93]. График показывает
общее вознаграждение за каждый эпизод следуя методам.

Через короткое время Q-learning умудряется выучить оптимальную политику, которая предполагает путешествие по самому краю скалы – несмотря на то, что иногда это приводит к случайному действию, которое выталкивает агента со скалы, следуя выбору Е-greedy.И наоборот, Sarsa учитывает этот сценарий метода выбора действий, и приводит к стратегии, которая следует более длинному (подальше от скалы), но более безопасному пути. Несмотря на то, чтоQ-learning находит оптимальную стратегию, её производительность хуже, чем у SARSA, хотя оба они будут сходиться к оптимальной стратегии, если Е постепенно уменьшать до 0.

Основные проблемы обучения робота – это непрерывная среда и большая размерность пространства состояний системы (сложность растёт экспоненциально). что заставляет нас подходить к задаче нестандартно, вместо представленные данных в виде таблицы с одной записью для каждого состояния, мы нашли способ учиться обобщать опыт из предыдущих состояний на те, которые ещё не посещены раньше.

Аппроксимация функции – это представление значенийV_t в моменты времени t, как параметризованную функциональную форму с вектором весов θ_t.

Здесь мы завершаем обсуждение обучения с подкреплением. Мы отсылаем читателя к книге Саттона и Барто [93] для полного обзора обучения подкрепления.

Градиентный спуск – это способ найти локальный минимум функции потерь F(w), начиная с некоторого набора значений w, итеративно приближаясь к решению в направлении обратному к градиенту (уменьшающем величину потерь), пока процесс не сойдётся к 0.

Градиент указывает на увеличение F, поэтому мы берём его с обратным знаком:

где η - скорость обучения, которая определяет размер шагов, предпринимаемых для минимизации функции. При выборе скорости обучения необходима осторожность – слишком большая приведёт к расхождению, а слишком малая – к длительной сходимости.

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычислить, когда этот...

Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...

Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: