Сдам Сам

ПОЛЕЗНОЕ


КАТЕГОРИИ







LISTING 2.2: Sarsa on-policy TD control algorithm.





Инициализировать Q(s,a) случайными значениями Повторять для каждого эпизода e: Инициализировать s Выбрать a по s, используя стратегию, полученную из Q (например, Е-greedy) Повторятьдлякаждогошага эпизода: Выполнить действие a, найти r, s’ Найти a` по s`, используя стратегию, полученную из Q (например, Е-greedy) Q(s,a) ← Q(s,a) + α[r + γQ(s`, a`) − Q(s,a)] s ← s’ a ← a’

 


Q-LEARNING

В отличие от Sarsa, Q-learning [100] – это off-policy алгоритм TD управления, который непосредственно аппроксимирует Q* независимо от применяемой стратегии. Эксперимент определяется как (s,a,r,s`), в нём агент начинает в состоянии s, выполняет действие a, получает вознаграждение r и переходит в состояние s`. Затем обновление Q(s,a) выполняется путем получения максимально возможного вознаграждения за действие от s` и применения следующего обновления:

Q(st, at) ← Q(st, at) + α[r + γmaxa Q(st+1, a) − Q(st, at)] (2.18)

Было доказано, что Q-learning в конечном итоге находит оптимальную стратегию для любого заданного кППР, если нет никаких ограничений на количество попыток, он пробует действие в любом состоянии. АлгоритмQ-learningприведенниже:

LISTING 2.3: Q-learning off-policy TD control algorithm.

Инициализировать Q(s,a) случайными значениями Повторять для каждого эпизода e: Инициализироватьs Повторять для каждого шага эпизода: Найти a по s, используя стратегию, полученную из Q (например, Е-greedy) Выполнитьдействиеa, найтиr, s’ Q(s, a) ← Q(s, a) + α[r + γmaxa` Q(s`, a`) − Q(s, a)] s ← s’

ВарианталгоритмаQ-learningиспользуется в значительной степени в данной работе, о нём подробнее в соответствующей секции.

 

СРАВНЕНИЕSARSAИQ-LEARNING

Различие между двумя методамиSARSAи Q-learning довольно тонкое. Sarsa является on-policyметодом, что означает – он следует стратегии управления, когда предпринимает действия, которые будут использоваться для обновления Q-значений. Q-learning – этоoff-policy метод, он предполагает, что оптимальная стратегия соблюдается всегда, и поэтому выбирает наилучшее действие. Основное различие заключается в том, какие будут получены награды. Это различие хорошо иллюстрирует пример из книги Саттона и Барто – «Обучение с подкреплением» [93].

Рис 2.4: Мир-сетка задачи [93]

Мир-сетка, показанный на рис.2.4, является частью эпизодической задачи без отсрочки γ=1. Задача состоит в том, чтобы перейти от состояния начала S к состоянию цели G, используя действия вверх, вниз, вправо и влево, не срываясь со скалы. Агент получает вознаграждение -1 на каждой смене состояния, за исключением попадания всостояние «скала», где он получает -100, и затем отправляется обратно в начало S. Выполняя задачу, агент выбирает действие согласно E-greedy с постоянным значением E=0.1.

Рис 2.5: Результаты выполнения задачи [93]. График показывает
общее вознаграждение за каждый эпизод следуя методам.

Через короткое время Q-learning умудряется выучить оптимальную политику, которая предполагает путешествие по самому краю скалы – несмотря на то, что иногда это приводит к случайному действию, которое выталкивает агента со скалы, следуя выбору Е-greedy.И наоборот, Sarsa учитывает этот сценарий метода выбора действий, и приводит к стратегии, которая следует более длинному (подальше от скалы), но более безопасному пути. Несмотря на то, чтоQ-learning находит оптимальную стратегию, её производительность хуже, чем у SARSA, хотя оба они будут сходиться к оптимальной стратегии, если Е постепенно уменьшать до 0.

АПРОКСИМАЦИЯ ФУНКЦИИ

Основные проблемы обучения робота – это непрерывная среда и большая размерность пространства состояний системы (сложность растёт экспоненциально). что заставляет нас подходить к задаче нестандартно, вместо представленные данных в виде таблицы с одной записью для каждого состояния, мы нашли способ учиться обобщать опыт из предыдущих состояний на те, которые ещё не посещены раньше.

Аппроксимация функции – это представление значенийVt в моменты времени t, как параметризованную функциональную форму с вектором весов θt.

Здесь мы завершаем обсуждение обучения с подкреплением. Мы отсылаем читателя к книге Саттона и Барто [93] для полного обзора обучения подкрепления.

ИСКУССТВЕННЫЕНЕЙРОННЫЕСЕТИ

Artificial neural network (ANN)

***

ГРАДИЕНТНЫЙСПУСК

Градиентный спуск – это способ найти локальный минимум функции потерь F(w), начиная с некоторого набора значений w, итеративно приближаясь к решению в направлении обратному к градиенту (уменьшающем величину потерь), пока процесс не сойдётся к 0.

Градиент указывает на увеличение F, поэтому мы берём его с обратным знаком:

(2.20)

где η - скорость обучения, которая определяет размер шагов, предпринимаемых для минимизации функции. При выборе скорости обучения необходима осторожность – слишком большая приведёт к расхождению, а слишком малая – к длительной сходимости.

 







Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...





Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:


©2015- 2024 zdamsam.ru Размещенные материалы защищены законодательством РФ.