ОБУЧЕНИЕ РОБОТА СТРАТЕГИЯМ УПРАВЛЕНИЯ ЧЕРЕЗ СИМУЛЯЦИЮ

На данный момент нам не удалось доказать, что наша свёрточная сеть способна изучать политику, которая могла бы выполнить задачу. Понимая, что запуск агента в вертикальном положении был ошибкой, мы вместо этого устанавливаем руку в начальное положение таким образом, чтобы вероятность последовательности действий, которая привела бы к поднятию куба, была значительно выше. Поэтому мы устанавливаем сочленения, чтобы захват находился на несколько сантиметров над кубом в начале каждого эпизода.

Рис.5.4: Начальная позиция наших первых успешных
экспериментов, подбирающих кубик.

Поскольку у нас теперь были большие шансы на успех благодаря случайному изучению, мы решили использовать ту же схему вознаграждения из предыдущего эксперимента, чтобы подтвердить нашу гипотезучто эти награды приводят к быстрому выполнению задачи, учитывая шанс получить большую награду. В попытке решить проблему попыток закрыть захват, когда он уже закрыт, мы добавили отрицательное вознаграждение -10, чтобы удержать агента от излишних действий.

Исключая начальное положение совместных углов, все остальные аспекты этого эксперимента остались такими же, как в предыдущем эксперименте. Послеприблизительно 800 эпизодов было ясно, что агент успешно выучил политику, чтобы собрать куб. Не только это, но мы являемся свидетелями эпизода, который показывает что-то захватывающее. Во время этого эпизода агент успешно схватил куб и начал поднимать его, прежде чем он выскользнул из захвата, чуть выше целевой высоты. После этого агент снова открыл захват и снова собрал куб и успешно выполнил задачу. Выводы этой важной вехи были двоякими: мы доказали, что можно было выучить политику непосредственно из симуляций через нашу сверточную сеть, а во-вторых, повторная попытка агента собрать куб свидетельствует о том, что он знает куб как источник вознаграждения, а не за счет фиксированного набора действий в каждом эпизоде.

Наблюдение за приведенными ниже графиками дает нам более глубокое понимание процесса обучения нашего агента.

Рис.5.5: Результаты первых успешных экспериментов поднятия кубика.

Из рис.5.5a видно, что агент постепенно совершенствуется в решении задачи подъёма куба. После 200 эпизодов он достигает успеха примерно в 4% случаев, а после 900 эпизодов он достигает успеха примерно в 7% случаев. На рис. 5.5b ясно показано, как поведение агента улучшается с увеличением числа эпизодов обучения. Видно, что линия имеет тенденцию оставаться в области отрицательного вознаграждения из-за получения -1 за каждое движение и -10 за избыточное движение – поскольку избыточные движения менее вероятны, предполагается, что линия должна быть расположена между -1 и -2 для большинства тренировок. Пики на этом графике показывают успешные эпизоды, действительно коррелируют с рисунком 5.5a. Хотя эта метрика показывает некоторые свидетельства обучения, мы не получаем указаний, когда агент начинает учиться. Рисунок 5.5c иллюстрирует процесс обучения с неожиданным увеличением среднего максимального Q-value примерно на 760 эпизодах – показывая, что агент нашел набор стратегий, которые приводят к увеличению дисконтированной награды.

Наблюдения за тем, как агент поднимает куб, и приведенные выше графики дают убедительные доказательства того, что в симуляции можно изучить стратегии непосредственно из RGB изображений.

Показав достаточным количеством успешных эпизодов, что наша свёрточная сеть может выучивать стратегии для выполнения задач, можно теперь перейти к проблеме исследования состояний.

В нашем большом пространстве состояний можно посетить только небольшую часть из нихза реалистичное время. Из полностью вертикальной стартовой позиции, используя случайные действия, вероятность схватить куб у агента невероятно низка. Нужна более прогрессивная схема вознаграждения, чтобы агент исследовал интересные состояния, которые приводят к высоким вознаграждениям.

Обучение симуляцией позволяет динамически перемещать цель и получать её позиции.Эта информация используется при исследовании агентом состояний вокруг целевой области. Одним из способов использования информации о позиции является предоставление промежуточных вознаграждений на основании его расстояния до куба.

Учитывая, что мы можем рассчитать расстояние как:

Тривиальная линейная награда, которую мог бы получать агент:

Проблема заключается в различениипозиций, близких к цели, разными наградах, полученных между двумя, и 2 одинаково разных положения вдали от цели одинаковы.

В идеальном случае разница между наградами двух разных позиций, далеких от цели, должна быть очень схожей, в то время как вознаграждение между двумя разными позициями, которые близки к цели, должно быть значительно больше, чем далеких.

Хорошим кандидатомявляется обратная экспоненциальная функция:

Рис.5.6: Начальная позиция экспериментов с промежуточными наградами.

Наряду с большим положительным вознаграждением за успешное завершение эпизода, были использованы экспоненциально убывающие промежуточные вознаграждения. После выполнения вышеуказанной конфигурации для 2х миллионов итераций, агент не выполнил свою задачу. Несмотря на это, агент научился исследовать районы возле куба, но этого было недостаточно, чтобы потом схватить куб и продолжить его поднимать. Наблюдая за агентом, можно видеть, что он прямо перемещает захват к кубу, а затем следуютколебания (вибрации) (juddering), которые толкают и тянут куб.

Хотя задача и не завершена, свидетельство обучения можно видеть на приведенных ниже графиках.

Рис.5.7: Результаты использования промежуточных наград, чтобы провести агента к поднятию куба. У агента не получилось поднять куб, но тем не менее доказательство его обучения можно увидеть на картинке.

Рис. 5.7aпоказываетуверенныйроствеличинынаград, втовремякакрис. 5.7bпоказывает активность обучения на первых 500 эпизодах, с более постепенным ростом снова на 1700 эпизодах.

Ростнаобоихграфикахестьрезультаттого, чтоагентобучается исследовать площади, близкие к кубу, который является источником наград. К сожалению, не образуется последовательность действий, которая бы приводил к поднятию куба. Предоставь мыболеедлинный эпизод, вкоторомагентбысмогпродолжитьисследоватьэтуинтересующуюнасплощадь,изатемимелбышансполучитьнаивысшуюнаграду за поднятие куба, ноза время, которое мы посчитали практичным для обучения этой задаче, он не успел.

В конечном итоге мы предполагаем, что неудача этой задачи была аналогична той, что была выделена в разделе 5.3, – что вероятность последовательности действий, которая привела бы агента кподнятию куба, была крайне низкой. Постепенное вознаграждение действительно улучшило шансы, что агент выполнит её, но по мере того, как эпсилон уменьшается, мы с большей вероятностью перейдем к кубу, но затем с меньшей вероятностью сделаем случайный ход, который приведет к его поднятию.

Было ясно, что включение промежуточных вознаграждений заставляло нашего агента исследовать области вблизи куба, но теперь нам нужно было что-то ещё большее, чтобы побудить агента предпринять последующие действия для захвата и поднятия куба – ввести дополнительные вознаграждения.

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

Живите по правилу: МАЛО ЛИ ЧТО НА СВЕТЕ СУЩЕСТВУЕТ? Я неслучайно подчеркиваю, что место в голове ограничено, а информации вокруг много, и что ваше право...

ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования...

Что делает отдел по эксплуатации и сопровождению ИС? Отвечает за сохранность данных (расписания копирования, копирование и пр.)...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: