|
LISTING 2.2: Sarsa on-policy TD control algorithm.
Q-LEARNING В отличие от Sarsa, Q-learning [100] – это off-policy алгоритм TD управления, который непосредственно аппроксимирует Q* независимо от применяемой стратегии. Эксперимент определяется как (s,a,r,s`), в нём агент начинает в состоянии s, выполняет действие a, получает вознаграждение r и переходит в состояние s`. Затем обновление Q(s,a) выполняется путем получения максимально возможного вознаграждения за действие от s` и применения следующего обновления: Q(st, at) ← Q(st, at) + α[r + γmaxa Q(st+1, a) − Q(st, at)] (2.18) Было доказано, что Q-learning в конечном итоге находит оптимальную стратегию для любого заданного кППР, если нет никаких ограничений на количество попыток, он пробует действие в любом состоянии. АлгоритмQ-learningприведенниже: LISTING 2.3: Q-learning off-policy TD control algorithm.
ВарианталгоритмаQ-learningиспользуется в значительной степени в данной работе, о нём подробнее в соответствующей секции.
СРАВНЕНИЕSARSAИQ-LEARNING Различие между двумя методамиSARSAи Q-learning довольно тонкое. Sarsa является on-policyметодом, что означает – он следует стратегии управления, когда предпринимает действия, которые будут использоваться для обновления Q-значений. Q-learning – этоoff-policy метод, он предполагает, что оптимальная стратегия соблюдается всегда, и поэтому выбирает наилучшее действие. Основное различие заключается в том, какие будут получены награды. Это различие хорошо иллюстрирует пример из книги Саттона и Барто – «Обучение с подкреплением» [93]. Рис 2.4: Мир-сетка задачи [93] Мир-сетка, показанный на рис.2.4, является частью эпизодической задачи без отсрочки γ=1. Задача состоит в том, чтобы перейти от состояния начала S к состоянию цели G, используя действия вверх, вниз, вправо и влево, не срываясь со скалы. Агент получает вознаграждение -1 на каждой смене состояния, за исключением попадания всостояние «скала», где он получает -100, и затем отправляется обратно в начало S. Выполняя задачу, агент выбирает действие согласно E-greedy с постоянным значением E=0.1. Рис 2.5: Результаты выполнения задачи [93]. График показывает Через короткое время Q-learning умудряется выучить оптимальную политику, которая предполагает путешествие по самому краю скалы – несмотря на то, что иногда это приводит к случайному действию, которое выталкивает агента со скалы, следуя выбору Е-greedy.И наоборот, Sarsa учитывает этот сценарий метода выбора действий, и приводит к стратегии, которая следует более длинному (подальше от скалы), но более безопасному пути. Несмотря на то, чтоQ-learning находит оптимальную стратегию, её производительность хуже, чем у SARSA, хотя оба они будут сходиться к оптимальной стратегии, если Е постепенно уменьшать до 0. АПРОКСИМАЦИЯ ФУНКЦИИ Основные проблемы обучения робота – это непрерывная среда и большая размерность пространства состояний системы (сложность растёт экспоненциально). что заставляет нас подходить к задаче нестандартно, вместо представленные данных в виде таблицы с одной записью для каждого состояния, мы нашли способ учиться обобщать опыт из предыдущих состояний на те, которые ещё не посещены раньше. Аппроксимация функции – это представление значенийVt в моменты времени t, как параметризованную функциональную форму с вектором весов θt. Здесь мы завершаем обсуждение обучения с подкреплением. Мы отсылаем читателя к книге Саттона и Барто [93] для полного обзора обучения подкрепления. ИСКУССТВЕННЫЕНЕЙРОННЫЕСЕТИ Artificial neural network (ANN) *** ГРАДИЕНТНЫЙСПУСК Градиентный спуск – это способ найти локальный минимум функции потерь F(w), начиная с некоторого набора значений w, итеративно приближаясь к решению в направлении обратному к градиенту (уменьшающем величину потерь), пока процесс не сойдётся к 0. Градиент указывает на увеличение F, поэтому мы берём его с обратным знаком: (2.20) где η - скорость обучения, которая определяет размер шагов, предпринимаемых для минимизации функции. При выборе скорости обучения необходима осторожность – слишком большая приведёт к расхождению, а слишком малая – к длительной сходимости.
Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам... Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем... ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между... Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор... Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте:
|