ОТ СИМУЛЯЦИИ К РЕАЛЬНОМУ МИРУ

⇐ ПредыдущаяСтр 9 из 9

Многие из сегодняшних задач управления роботами обучаются на реальных роботизированных платформах, которые часто требуют взаимодействия с человеком, дорогостоящего оборудования и продолжительного времени обучения. Мы прилагаем все усилия, чтобы попытаться устранить эту зависимость от обучения в реальном мире и вместо этого тренироваться в симуляции. Теперь мы представляем наши результаты для непосредственной передачи обученных на симуляции стратегий в реальный мир.

Прежде чем подготовить нашего агента к переходу в реальный мир, сначала нужно убедиться, что симулированный мир максимально похож на реальный мир. Это означает, необходимость сделать значительные визуальные изменения в нашей симуляции роботов.

Рис.6.20: Визуальные улучшения Robox при подготовке
к переходу стратегий из симуляции в реальный мир.

Симулятор получил несколько визуальных обновлений, чтобы точно соответствовать реальной реплике. Для подготовки к обучению симуляции, мы сначала установили сцену в реальном мире, а затем внесли окончательные корректировки в симуляцию.

(A) Сцена симуляции (B) Сцена реального мира

Рис.6.21: Подготовка сцен тренировки.
Одинаковая чёрная коробка закрывающая обе базы.

Выше показаны: сцена реального мира справа и её смоделированная реплика слева. Поместили чёрный ящик перед основанием в обеих сценах, чтобы избежать необходимости моделирования зажима, удерживающего руку на столе. У нас не было достаточно времени для обучения агента, чтобы полностью выполнить задачу поднятия куба. Тем не менее, агент был обучен достаточно, чтобы исследовать интересные области, окружающие куб, –этого хватило, чтобы проверить возможность перехода. Реплика реального мира повторила аналогичные варианты действий симуляции, исследовала области вокруг куба, можно считать, факт переходаслучившимся. Мы взяли сеть, обученную симуляцией, протестировали её прямо на реальной версии руки с помощью эпсилон, фиксированного в 0.1. Результаты невероятно обнадёживают.

Более того, на рис.6.22 демонстрируются аналогичные активации как для симуляции, так и для реального мира. Активация слева –симуляция, справа – реальный мир.

Рис.6.22: Активации на отображениях признаков обученной сети
при приёме входов из виртуального мира и из реального мира.

Все слои показывают очень похожие активации на соответствующиханалогах слоёв. Несмотря на то, что наш агент не был обучен теням, агенту всёравно удаётся перенести свою стратегию в реальный мир. Видно, что наша сеть фильтрует большинство теней из реального мира во втором слое – демонстрируя надежность нашего подхода.

После успешного перехода мы надеемся продолжить обучение агента в симуляции, чтобы завершить задачу.Ещё раз запустить обученную сеть в реальном мире, чтобы показать практические приложения нашего подхода. Мы считаем, что мы сделали важный шаг на пути к использованию симуляций роботов для снижения зависимости от физических роботов и, в конечном счете, к повышению производительности агентов манипулирования учебными объектами.

[1] Здесь и далее всё, что касается теории, С. Джеймс кратко цирирует книгу«Саттон Р.С., Барто Э.Г. - ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ (2014)», конспект дополнил необходимой нам информацией

[2] exploration vs exploitation

[https://www.lesswrong.com/posts/oP36hN6ty25sXum3s/exploration-exploitation-problems]

[3] Алгоритм имитации отжига — общий алгоритм решения задачи глобальной оптимизации, особенно дискретной и комбинаторной оптимизации. Один из примеров методов Монте-Карло.

[https://ru.wikipedia.org/wiki/Алгоритм_имитации_отжига]

[4] Ядро свёртки - одна и та же матрица весов, используемая для всех нейронов (свёрточного) выходногослоя. Входы для каждого нейрона это квадратное окно пикселей, движущееся с определённым сдвигом по картинке, а функция «поиска/активации» у всех нейронов имеет один вид и одни веса. Если произошла «активация» нейрона, значит в данном окне найден графический признак (например, линия или угол).
[https://ru.wikipedia.org/wiki/Свёрточная_нейронная_сеть]

[5] Слой подвыборки (слой субдискретизации) (poolinglayer) представляет собой нелинейное уплотнение карты признаков, при этом группа пикселей (обычно размера 2×2) уплотняется до одного пикселя, проходя нелинейное преобразование. Наиболее употребительна при этом функция максимума ( можно использовать и другие функции — например, среднего значения или L2-нормирования. Однако практика показала преимущества максимума ). Преобразования затрагивают непересекающиеся прямоугольники или квадраты, каждый из которых ужимается в один пиксель, при этом выбирается пиксель, имеющий максимальное значение. Эта операция позволяет существенно уменьшить пространственный объём изображения. Подвыборка интерпретируется так: если на предыдущей операции свёртки уже были выявлены некоторые признаки, то для дальнейшей обработки настолько подробное изображение уже не нужно, и оно уплотняется до менее подробного. К тому же фильтрация уже ненужных деталей помогает не переобучаться. Слой подвыборки, как правило, вставляется после слоя свёртки перед слоем следующей свёртки.

[https://ru.wikipedia.org/wiki/Свёрточная_нейронная_сеть]

[6] Проблема мёртвых нейронов - При инициализации весов сети случайным образом часть нейронов может оказаться в области пространства, в котором отсутствуют данные или их количество ничтожно мало. Эти нейроны имеют мало шансов на победу и адаптацию своих весов, поэтому они остаются мёртвыми. Таким образом, входные данные будут интерпретироваться с мньшим количеством нейронов (мёртвые нейроны не принимают участие в анализе), а погрешность интерпретации данных, иначе называемая погрешностью квантования, увеличится. Поэтому важной проблемой становится активация всех нейронов сети.

Такую активацию можно осуществить, если в алгоритме обучения предусмотреть учёт количества побед каждого нейрона, а процесс обучения организовать так, чтобы дать шанс победить и менее активным нейронам. Идея такого подхода к обучению возникла при наблюдении за поведением биологических нейронов. Отмечен факт, что нейрон-победитель сразу после победы на некоторое время теряет активность, "отдыхая" перед следующим этапом конкурентной борьбы. Такой способ учёта активности нейронов называется "механизм утомления"[http://stu.scask.ru/book_ns.php?id=82].
Осовский С. Нейронные сети для обработки информации / Пер. с польского И.Д. Рудинского. - М.: Финансы и статистика, 2002. - 344 с.

[7] Отображения признаков (featuremaps) – это функция, которая отображает вектор данных в пространство характерных свойств исследуемых объектов. Эту функцию интерпретируют как графическое кодирование какого-либо признака объекта, например, наличие наклонной линии под определённым углом.

Следующий слой, получивший результат операции свёртки некоторой матрицы весов, показывает наличие соответствующего признака в обрабатываемом слое и его координаты. В СНС есть целый набор матриц весов (ядер свёртки), кодирующих элементы изображения (например, линии и дуги под разными углами).

При этом такие ядра свёртки не закладываются исследователем заранее, а формируются самостоятельно путём обучения сети классическим методом обратного распространения ошибки. Проход каждым набором весов формирует свой собственный экземпляр отображения признаков, делая нейронную сеть многоканальной (много независимых отображений признаков на одном слое).

Следует отметить, что при переборе слоя матрицей весов её передвигают обычно не на полный шаг (размер этой матрицы), а на небольшое расстояние (например, при размерности матрицы весов 5×5 её сдвигают на 1 или 2 нейрона (пикселя) вместо 5, чтобы не «перешагнуть» искомый признак).

Отображение признаков есть активация выхода для данного фильтра, и её определение независит от уровня наложения. Отображение признаков ещё называют картой активации, т.к. результат наложения весов соответствует активации различных частей изображения, а также картой функции, т.к. отображение есть определённая функция на частях изображения. Высокая активация означает, что определенная функция обнаружена.

⇐ Предыдущая 1 2 3 4 5 6 7 89

Что делать, если нет взаимности? А теперь спустимся с небес на землю. Приземлились? Продолжаем разговор...

Что способствует осуществлению желаний? Стопроцентная, непоколебимая уверенность в своем...

Что вызывает тренды на фондовых и товарных рынках Объяснение теории грузового поезда Первые 17 лет моих рыночных исследований сводились к попыткам вычислить, когда этот...

ЧТО ПРОИСХОДИТ ВО ВЗРОСЛОЙ ЖИЗНИ? Если вы все еще «неправильно» связаны с матерью, вы избегаете отделения и независимого взрослого существования...

Не нашли то, что искали? Воспользуйтесь поиском гугл на сайте: