ГЛАВА 6. ПОЗДНИЕ ЭКСПЕРИМЕНТЫ

Необходимы более длительные эксперименты, а операции в V-REP занимали слишком много времени, например, только захват изображения занимал 200мс.

Robox — это 3Dсимуляторразработанный с использованием Unityи C# для удовлетворения нашим ожиданий к скорости работы. Руку стало возможным сдвигать на нужный угол без моделирования действий двигателями. Итерации начали проходить в 10 раз быстрее. Сновымсимуляторомрасширилиработунадпромежуточными наградамииз секции 5.5.

Впредыдущейглаве мы показали, что можно учиться непосредственно из изображений.

Теперь мы хотим улучшить результаты, покажем, что можно увеличить шанс на успех, увеличив время обучения, а также задавая хорошо подготовленные промежуточные награды. Продемонстрируем это, сохраняя положение куба неизменным, также, как и начальные углы сочленений – хотя они должны легко обобщаться на другие начальные углы, при которых захват остаётся рядом с кубиком.

В дополнение к большой положительной награде за завершение задания агент получает вознаграждение, основанное на экспоненциальном затухающем расстоянии от захвата до куба, вознаграждение = 1 при захвате куба и с дополнительной наградой сверх того в зависимости от расстояния куба от земли. Эти награды были выбраны так, чтобы сначала направлять агента к кубу, во-вторых, захватить куб и, наконец, поднять куб.

Сочетание этих вознаграждений наряду с большой наградой за завершение задания приведет к оптимальным вознаграждениям за выполнение этой задачи.

Рис.6.2: Исходное положение экспериментов, положение куба и углы сочленений неизменны в начале каждого эпизода. Промежуточные вознаграждения
используются для направления агента в интересующие состояния.

На рисунке 6.2 показан пример того, что сеть получает в качестве входных данных. После 1,8 миллиона итераций агент выучил набор стратегий для подбора куба и смог обобщить их на другие начальные состояния, находящиеся по пути к кубу. Более того, агент показал поведение того, что он предполагает, что куб является источником вознаграждений, и в случаях, когда куб падал, захват возвращался, чтобы снова поднять его. Агент при тестах в той же среде, в которой он был обучен, достиг успеха в 56% случаев. Более подробно об этом в разделе 6.8 вместе со сравнениями с другими агентами. Нижепоказанырезультатыобучения.

Рис.6.3: Результаты использования промежуточных вознаграждений
для ведения агента в интересующие состояния пространства.
Агент преуспел в обучения стратегиям поднятия куба.

Из графиков на рис.6.8 видно, что на первых 1000 эпизодах происходит исследование пространства состояний алгоритмом отжига с изменением значения эпсилон от 1.0 до 0.1, последнее затем остается постоянным для оставшейся части эксперимента. Мы видим убедительные доказательства обучения после приблизительно 1800 эпизодов на графиках 6.3a, 6.3c и 6.3d. На данный момент количество успешных эпизодов имеет тенденцию к увеличению линейно (рис. 6.3a) вместе с общей более высокой частотой увеличения средних вознаграждений (рис. 6.3c). Наконец, средние Q-значения иллюстрируют обучение очень четко резким увеличением примерно на 1800х эпизодах, а затем Q-значения стабилизируются примерно на уровне 400 (рисунок 6.3d). Мы считаем, что агент находит стабильную политику, которая завершает задачу.

Рис.6.4: Веса ядер 32х 5×5-ядер с первого слоя нейросети после 1.8 миллиона итераций
— показывает, какие типы признаков нейросети видят в наших картинках.

Наблюдая за весами, можно видеть то, что сеть научилась реагировать. Можно выделить:

Что агент понимает в своей среде?Понимает ли агент куб, как источник вознаграждений? Знание агентомэтих вещей уже подтверждалось его поведением – повторными попытками захвата куба.Теперь посмотрим на отображения признаков [7] (featuremaps), чтобы выявить причины их активации.

Рис.6.5: Активация таблиц признаков обученной нейросети во время попытки агента подобрать куб с фиксированными начальной позицией и углами сочленений.

На рис.6.5a показаны полученные 32 изображения после прохождения через первый свёрточный слой, а нарис.6.5b и 6.5cпоказаныпо 64 изображения – после прохождения второго и третьего свёрточных слоев соответственно. Наиболее заметны активизации напозициях (8,2) и (2,8) рис.6.5b, которые показывают высокую активацию на кубе и на сегментах руки. Это заставляет думать, что сеть не только фиксирует состояния углов сочленений руки, но и положение куба.

Точкам, помеченнымна графике от A до E, соответствуют 5 изображений.

Рис.6.6: Пошаговая визуализация Q-значений успешного завершения задачи.
В каждой точке эпизода выбирается и отображается наибольшее Q-значение.

Кадры от A до C показывают устойчивое увеличение Q-значений, которое является результатом того, что агент приближается к кубу. В кадре CQ-значения немного колеблются из-за того, чтонейросеть пытается определить, захватила ли рука куб. К моменту кадра D происходит большой скачокQ-значений, агент успешно определил, что он захватил куб. Затем Q-значения продолжают расти с увеличением расстояния куба от земли и, наконец, достигает максимума, поскольку агент ожидает получить большую награду. На приведенном выше рисунке показано, что функция ценности может развиваться со временем для задачи манипуляции.

Поскольку нам доступны значения углов сочленений при обучении агента, хотелось бы знать, сократит ли время обучения добавления этих значений, как входов сети. Явное добавление углов сочленений в сеть уменьшает объем информации, которую агент должен интерпретировать из изображения. Имеем 5% долю успешных попыток при тестировании агента в той же среде, в которой он был обучен.

Рис.6.7: Объединение шести углов сочленений и состояния захвата
в первый полносвязный уровень сети.

Рис.6.8: Результаты добавления углов сочленений в сеть.
Они показывают, что обучение не быстрее, чем без углов.

Мы видели аналогичные результаты и в предыдущем эксперименте, но ещё увеличилось время, затраченное на изучение успешной политики. Оглядываясь на рисунок 6.3a и сравнивая с рисунком 6.8a, видно, что сеть, использующая только изображения, начала регулярно выполнять задачу на 200 эпизодов раньше, чем данная сеть.

Эти результаты кажутся несколько противоречивыми: мы уменьшаем объем информации, которая должна быть интерпретирована из изображения, чтобы просто найти куб, но, несмотря на это, время обучения не уменьшается. Это открытая проблема. Одно из возможных объяснений: входыизображения доминируют, углы не были заметны при сравнении. Наша сеть получает 4096 входных данных от изображения с разрешением 64×64 и всего 7 входных данных от конфигурации робота, что означает, что изображение имеет более чем 585 раз большее представлений во входных значениях по сравнению с конфигурацией робота.

Кроме того, поскольку агент выполняет случайные ходы с вероятностью ε, Предыдущий эксперимент мог случайно получить лучшие случайные ходы, которые заставили агента двигаться быстрее. В любом случае, похоже, нет никаких существенных доказательств того, что добавление углов сочленений сокращает время обучения, и поэтому оставшаяся часть нашей работы была выполнена с использованием исходной конфигурации сети, как на рисунке 4.4.

Теперь хотим расширить успех раздела 6.3, попытаемся обобщить нашу нейросеть на разные позиции куба, а также другие стартовые положениясочленений.

Рис.6.9: Ограниченная территория (~200 см²),
в которой может быть размещен куб в начале эпизода.

Начинаем работу с нейросети, обученной в предыдущем эксперименте, уменьшая количество эпизодов для начального обучения сети. Каждый раз, когда агент успешно выполняет задачу, куб перемещается в произвольное место в выделенной области. Более того, в начале каждого эпизода углы сочленений задаются как и в разделе 6.3, но со случайным изменением в 20 градусов для каждого сустава.

В этом эксперименте начальное значение эпсилон равно 0.5, затем отжигом уменьшается до 0.1 в течение 1 миллиона итераций. Такое начальное значение эпсилон выбрано, т.к. сеть уже умеет исследовать интересные части пространства состояний, поэтому оно не должно быть очень высоким. С другой стороны, не хотелось ограничивать агента в поиске новых мест, куда может попасть куб, поэтому считаем, что значение 0.5 примерно соответствует действительности.

Когда агент тестировался в той же среде, в которой он прошел обучение, в 52% сеть была способна обобщить начальные положения. Подробно обсудим это в разделе 6.8 вместе со сравнениями с другими агентами. Ниже показаны результаты обучения:

Рис.6.10: Результаты обученной сети обобщения
разных начальных позиций куба и углов сочленений.

Первое, на что следует обратить внимание в результатах – это то, что до начала изучения стратегий, выполняющих эту задачу, требуется всего около 500 эпизодов. Такой короткий период следовало ожидать, учитывая, что использовались суб-оптимальные веса нейросети и уменьшенное начальное значение эпсилон.

Во-вторых, следует отметить резкое увеличение среднего Q-значения в начальных эпизодах, что может быть связано с тем, что сеть адаптируется к новой среде. Мы видим аналогичное увеличение Q-значений приблизительно на величину 200, как и в разделе 6.3, когда агент изучил стратегию, решающую задачу. После чего Q-значения стабилизируются, предполагаем, что найдена надёжная стратегия завершения задачи.

Хотя мы не ожидали сильных отличий ядер или отображений признаков от полученных в предыдущем разделе, покажем их для полноты картины:

Рис.6.11: 32 ядра 1 слоя обученной нейросети при обобщении
показывают нам какие типы функций сеть ищет в изображениях.

Отметим, что веса стали сильнее на рисунке 6.11, что привело к увеличению активности на рисунке 6.12. Видим новый детектор нижнего правого угла (1,2), а также свидетельства того, что детекторы меняются, например, верхний левый угловой детектор в (6,2) превратился в детектор вертикального края.

Рис.6.12: Активация отображений признаков обученной нейросети
во время попытки агента подобрать куб с разными начальными позициями.
Активации стали сильнее после обучения обобщению.

Теперь у нас есть обученная нейросеть, которая хорошо обобщает различные начальные состояния, включая вариации положений сочленений и целевые позиции. Без дальнейшего обучения, хочется узнать насколько хорошо данная нейросеть умеет обобщать в ситуациях и средах, которые она ранее не видела.

Проверим возможности агентов к обобщению следующими способами:

Каждый тест проводился в течение 50 эпизодов, успехом выполнения считается куб, поднятый агентом на несколько дюймов от земли.

Хотя наша нейросеть из предыдущего раздела была обучена только одному размеру куба, мы хотели видеть сможет ли агент поднять куб, если слегкаизменитьего. Естественно, мы не могли радикально изменить цель без дальнейшей подготовки, поэтому основное внимание было уделено растяжению и сокращению куба, на котором тренировали сеть, а также тестамс помощью сферы, которая по размерам примерно равна кубу.

Агент не смог обобщить сферу. Агент провел много времени, пытаясь взять захватом сферу. Мы ожидали проблемы, т.к. некоторые ядра с рис.6.11 ищут края и углы, связанные с формой куба, на которой он был обучен. Если бы во время тренировки мы рандомизировали бы форму, то агент имел бы шансы преуспеть.

Рис.6.14: Процент успешных эпизодов тестов с целевым объектом
с разной высотой и глубиной.

Оба графика на рис. 6.14 показывают, что агент лучше всего работает на тестах изменения высоты, поскольку это параметр, на котором агент был обучен. Агент лучше обобщает при увеличении высоты куба, не уменьшении. Когда высота куба увеличивается на 30%, агент достигает успеха в 30% случаев. И наоборот, когда высота куба уменьшается на 30%, агент не преуспевает ни разу. Одним из объяснений неприязни к сокращению высоты может быть то, что ребра становятся менее выражены, особенно когда изображения имеют разрешение 64×64. Это может означать отсутствие активаций на кубе, что приводит невозможности найти цель.

График на рис. 6.14b показывает, что нет существенной разницы в процентах успеха при изменении глубины куба. Падение успехов постепенное, связано с меньшим акцентом на глубину куба при вычислении его положения по сравнению с передней гранью куба.

Используем куб, как целевой объект, для обучения агента, добавляем беспорядок в сцену.

Рис.6.15: Пример введения беспорядка в сцену в виде медведя.

Удивительно, но агент хорошо адаптировался, когда медведь был расположен достаточно далеко от куба, например, на рисунке 6.15. Когда медведь приблизился к кубу, агент боролся с поиском цели, выполнял движения, выглядящие как случайный перебор. Чтобы увидеть, насколько хорошо агент обобщает, добавляем больше беспорядка в сцену, пока агент не перестаёт решать задачу. Т.к. агент вообще не может обобщить, когда медведь помещен рядом с кубом, вместо этого помещаем объекты ближек основанию руки.

Рис.6.16: Результаты того, как добавление беспорядка
ухудшает скорость обучения агента.

График на рис. 6.16 показывает, базовый успех составляет 64% без беспорядка и резко уменьшается при добавлении двух или более дополнительных объектов.

Это результат добавления слишком большого количества информации на сцену, которую агент раньше никогда не видел. Предполагаем, если далее обучение будет проводиться с добавлением беспорядка, агент обобщит и большее число медведей на сцене.

Конечный тест обобщения – это постепенное увеличение области, в которой может быть размещён куб. Для этого теста выбираем позиции из равномерного распределения в пределах определённой области. Важно помнить, что агент был обучен в пределах площади 200 см². Целевой объект тот же, что и для обучения агента.

Рис.6.17: Результаты обобщения при увеличении области, в которой куб может быть расположен в начале каждого эпизода. Площадь определена в см².

Результаты, показанные на рис. 6.17, показывают, что агент лучше всего работает, когда ограничивается областью, в которой он был обучен, и продолжает хорошо работать примерно на 100 см²более своей области обучения. Это может быть несколько вводить в заблуждение, т.к. агент не обязательно обобщает позиции за пределами области 200 см², а куб помещается в меньшую область из-за равномерного распределения позиций. Процент успехов естественно уменьшается по мере увеличения площади, но не достигает 0% даже на площади 450 см² из-за равномерного распределения.

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

ЧТО ТАКОЕ УВЕРЕННОЕ ПОВЕДЕНИЕ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ? Исторически существует три основных модели различий, существующих между...

Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычислить, когда этот...

Система охраняемых территорий в США Изучение особо охраняемых природных территорий(ООПТ) США представляет особый интерес по многим причинам...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: