На пути к манипулированию роботами следующего поколения

 

Жизнь роботов

Постоянно меняющаяся природа человеческой среды создает большие проблемы для манипулирования роботами. Объекты, которыми роботы должны манипулировать, различаются по форме, весу и конфигурации. Важные свойства робота, такие как поверхностное трение и константы крутящего момента двигателя, также меняются с течением времени. Прежде чем роботы-манипуляторы смогут изящно работать в домах и на предприятиях, они должны быть адаптированы к таким изменениям. В этом обзоре обобщаются типы вариаций, с которыми

роботы могут столкнуться в человеческой среде, и классифицируются, сравниваются и противопоставляются способы применения обучения к проблемам манипуляции через призму адаптивности. В конце предлагаются многообещающие направления будущих исследований.

Введение

“Строили ли мы когда-нибудь робота, столь же способного, как муравей, в любом масштабе?” - спросил Мейсон, говоря о разнообразии и совершенствовании навыков манипулирования муравьями в своей вдохновляющей обзорной статье. Размеры мозга насекомых и животных часто намного меньше, чем у людей, но они все еще могут демонстрировать невероятные навыки манипулирования. Например, осьминоги могут чувствовать живых крабов в закупоренных прозрачных банках и открывать их. Они также могут сбежать, оказавшись в ловушке в контейнерах, закрытых завинчивающимися крышками, или нести половинки кокосового ореха всеми щупальцами, быстро идя по морскому дну.

Как можно сделать вывод из приведенных выше примеров, этот обзор фокусируется на задачах манипулирования, которые наиболее естественно выполняются при контакте между агентом (возможно, роботом) и его средой. Чтобы быть ясными, мы принимаем определение Мейсона: “Манипуляция относится к контролю агента над окружающей средой посредством избирательного контакта”. Отмечая, что “агент” относится к человеку, животному или роботу. Например, осьминог контактирует с банкой и ее крышкой, используя свои контакты, чтобы вращать крышку относительно банки.

Нам еще предстоит увидеть робота, столь же ловкого и разностороннего, как муравьи, осьминоги и многие другие животные. Мы можем вручную разрабатывать роботов для выполнения определенных задач манипуляции в контролируемых средах, но мы еще не смогли создать общего робота, который мог бы адаптироваться к существенным изменениям в задаче или среде. Напротив, адаптивность естественна для людей. Например, в задачах выбора и размещения наши руки могут быстро адаптироваться к новым объектам. При работе с тяжелыми предметами мы, естественно, можем использовать другие части тела или даже внешние опоры, такие как стена, чтобы закрепить их. Кроме того, наши способности манипулирования не так легко нарушаются изменениями в окружающей среде: мы можем взять ручку, освещенную желтым или белым светом, будь то на столе или на полке, и часто нам даже не нужно ее видеть. Все эти адаптации кажутся нам легкими, но все еще бросают вызов автономным роботам. Как это было видно в финале DARPA Robotics Challenge 2015, неопределенный характер неструктурированных сред создавал большие проблемы для роботов, поскольку они соревновались в выполнении задач, которые были бы легкими для людей, таких как поворот клапана или подъем в автомобиль. Видеоклипы онлайн показывают, что роботы за миллион долларов падают на землю, потому что их контроллеры перегружены ошибками, возникающими в результате того, с чем люди могут легко бороться, например, промаха в захвате ручки. Сколько времени пройдет, прежде чем роботы смогут изящно и продуктивно работать в наших домах и на рабочих местах?

Нынешняя неадекватность навыков манипулирования автономными роботами в неструктурированных средах является огромным камнем преткновения для их внедрения на предприятиях и дома. Поскольку современное состояние техники было достигнуто благодаря использованию около 50 лет подходов с использованием традиционных методов инженерного моделирования и анализа, этот обзор посвящен методам, основанным на обучении, применение которых к проблемам манипулирования все еще находится в зачаточном состоянии.

В двух недавних опросах широко и на высоком уровне обсуждается обучение роботов манипулированию. Статья Мейсона, упомянутая выше, обеспечивает интересное обсуждение на высоком уровне многих проблем, с которыми сталкиваются исследователи манипулирования роботами, и дает интригующие идеи со многих точек зрения. В конце концов, он предполагает, что разработка новых методов обучения, предназначенных для обучения задачам манипуляции, вероятно, расширит репертуар задач манипуляции, которые могут выполнять роботы. Обзор Kroemer et al. Обсуждает результаты из более чем 400 статей, тщательно охватывающих широкий спектр методов обучения и проблем манипулирования. На основе их широких взглядов они предложили формальную постановку проблем обучения манипуляциям. Они завершают список конкретных проблем манипулирования и предполагают, что существующих методов обучения недостаточно для их решения. В согласии с Мейсоном они предполагают, что новые методы обучения должны быть разработаны специально для проблем манипуляции.

Подобно бумагам Мейсона и Кремера, наша охватывает обучение роботов для манипуляций в широком смысле, а не фокусируется на подзоне. Тем не менее, мы пытаемся внести уникальную перспективу в дискуссию, сосредоточив внимание на адаптивности усвоенных навыков манипулирования. Адаптивность-это сила людей и других животных, которая имеет решающее значение для их выживания в мире. Точно так же адаптивность будет иметь решающее значение для долгосрочного выживания персональных роботов в качестве спутников и помощников человека в постоянно меняющейся человеческой среде. Обобщая и связывая соответствующие исследования с адаптивностью, мы надеемся предоставить читателям единое представление о возможных направлениях исследований для повышения адаптивности усвоенных навыков манипулирования.

Остальная часть этой статьи организована следующим образом: Во втором разделе мы обсуждаем проблемы манипулирования роботами, чтобы выделить сложные проблемы и вариации, к которым роботы должны адаптироваться. В третьем разделе мы рассмотрим навыки манипулирования роботами и определим границы исследований адаптивности. В четвертом и пятом разделах мы начинаем интенсивно анализировать, связывая разрозненные исследования с границами достижения адаптивности. В заключительном разделе мы собрали головоломки вместе, чтобы проиллюстрировать перспективные направления будущих разработок.

ПРОБЛЕМЫ В МАНИПУЛИРОВАНИИ РОБОТАМИ

В целом, существуют два основных источника проблем в традиционных подходах к манипулированию роботами:  обработка сложной контактной механики и  разработка алгоритмов планирования и управления, устойчивых к изменениям, которые будут встречаться в реальных развертываниях.

Проблемы от контакта

Рассмотрим робота, объекты, которыми нужно манипулировать, и окружающую среду как систему. В этой настройке задача представлена набором точек, представляющих начальное и конечное состояния, а также ограничения, которые будут наложены на переходные состояния. Навык манипулирования роботом можно рассматривать как его способность соединять начальные состояния с целевыми состояниями посредством последовательных действий. Робот считается квалифицированным, если он может быстро и надежно выполнить задачу перед лицом неопределенности.

Для выполнения задачи манипуляции робот должен устанавливать и разрывать контакты и, возможно,использовать контролируемое скольжение или качение. Изменения в состоянии каждого контакта между столкновением, прилипанием, скольжением и разделением изменяют основную динамику системы. Это дает математическим моделям манипуляции гибридную структуру с различной динамической моделью, соответствующей каждому режиму контакта, где режим контакта определяется как состояние всех контактов. Например, если есть два контакта с прилипанием, то (поскольку столкновение невозможно) существует три возможных будущих состояния контакта (прилипание, скольжение или разделение) для каждого контакта и, следовательно, девять для пары. Один возможный режим (палка, отдельно), а другой (скольжение, скольжение). Если существует n существующих контактов, то существует 3n возможных режимов контакта; число растет экспоненциально с количеством контактов.

Проблемы, связанные с изменениями в человеческой среде

Кемп и др. (11) обобщили проблемы в человеческой среде для манипулирования роботами. Одно слово, которое постоянно появлялось, было “вариация”. В целом, человеческая среда очень неструктурирована. В отличие от контролируемых сред, таких как фабрики и лаборатории, роботы в человеческих средах, таких как дома и предприятия, сталкиваются с проблемами из-за “вариаций”, потому что используемые модели и предположения, сделанные во время разработки алгоритмов или обучения, отличаются от реальности.

Чтобы преодолеть их, важно понять, когда и где могут возникнуть изменения. О “когда”, в общем, можно с уверенностью сказать, что вариации могут произойти в любое время во время выполнения задачи в человеческой среде. Это означает, что изменения могут быть либо статическими (возникают в начале новой задачи), либо динамическими (возникают во время выполнения задачи). Что касается “где”, с точки зрения робота, мы можем классифицировать вариации на внутренние или внешние вариации.

Внутренние изменения-это внутренние изменения робота после развертывания, которые могут повлиять на его возможности и функциональность:

1) Изменения тела робота. Физические свойства робота изменяются естественным образом с течением времени из-за износа. Также можно ожидать изменений или неисправностей на его частях, например, заклинивший шарнирный двигатель удаляет по меньшей мере одну степень свободы робота. В этих случаях мы все еще можем хотеть, чтобы робот сохранил свои навыки манипулирования, по крайней мере, до определенного уровня. Большие вариации могут даже заставить робота считаться другим классом роботов. Фактически, различные классы роботов, такие как промышленные роботы, гуманоиды и квадроторы, могут быть пригодны для некоторых задач манипулирования. В идеале навык манипулирования, разработанный вручную или изученный, может быть перенесен в новое воплощение.

2) Вариации “мозга” робота. Модификации программного обеспечения также могут изменить поведение робота, например, изменение усиления или частоты контроллера робота влияет на его динамические характеристики.

3) Вариации восприятия роботов. Восприятие-это важнейший интерфейс между роботом и его средой. Изменения в модальности датчиков, емкости, качестве и перспективе существенно влияют на понимание роботом состояния системы.

Внешние вариации-это изменения, которые также могут произойти в окружающей среде:

1) Вариации объектов. Как объекты,которыми манипулируют, так и объекты в фоновом режиме могут различаться (i) в пределах одного класса объектов и (ii) между классами объектов. Внутриклассовые вариации могут быть обработаны путем обновления существующих моделей через восприятие, но межклассовые вариации могут потребовать создания новых моделей. Конфигурация объектов (положение и ориентация) также может изменяться и может создавать проблемы для робота, например, фоновые объекты падают и образуют кластер, который блокирует целевой объект. Эти изменения часто происходят динамически во время выполнения задач.

2) Изменения окружающей среды. Свойства окружающей среды, такие как расположение рабочего пространства, ровность стен/пола, состояние освещения, температура, влажность и уровень шума, подвергаются изменениям. Эти изменения также могут повлиять на выполнение задачи, например, изменения влажности могут привести к изменению свойств трения на контактных поверхностях между рукой робота и объектом.

3) Вариации задач. Когда люди находятся в цикле, пользователи могут захотеть настроить различные аспекты выполнения задач, что может изменить спецификацию задачи, например, пользователь может захотеть, чтобы робот приближался к целевому объекту быстрее или медленнее. Более того, пользователь может изменить состав задачи, позволив роботу выполнить новую задачу, которая может повторно использовать все или часть его существующих навыков.

Другим важным аспектом вариаций является новизна; некоторые вариации можно предвидеть, а другие-нет. Известные вариации могут быть учтены во время развития навыков манипуляции, например, при захвате робота мы можем предвидеть некоторые вариации объекта и убедиться, что навык обобщает их. Тем не менее, всегда можно столкнуться с неожиданными изменениями в человеческой среде. В идеале робот мог бы распознать и адаптироваться к этим новым вариациям и выполнить намеченную задачу.

Как показано на рис. 1, пространство вариаций можно представить в виде четырех квадрантов на плоскости. Чтобы роботы могли изящно работать в человеческой среде, они должны быть адаптированы к изменениям во всех квадрантах. Пример показан на рис. 2 проиллюстрировать различные типы вариаций, которые могут возникнуть после развертывания робота. В верхнем ряду на столе четыре объекта, а стол находится в центре большой комнаты. В нижнем ряду вводятся два новых объекта, что делает окружающую среду более загроможденной. Кроме того, робот и стол теперь перемещены в меньшую комнату, поэтому робот должен быть осторожен, чтобы не ударить стену во время работы.


РИС.  Пример вариаций в среде обитания человека.(Вверху слева) Робот Kinova GEN3 пытается схватить банан (целевой объект-желтый банан; фоновые объекты зеленого и красного цветов). (Вверху справа) Вид сверху вниз сцены слева. (Внизу слева) Внешне фоновые объекты изменяются: изменяются конфигурации объектов, вводятся новые объекты (цилиндрическая банка, тарелка), банан кладется на тарелку, а стол поворачивается на 90°; также изменяется свойство окружающей среды: свет теперь идет с другого направления и отбрасывает тени. Внутренне и динамически третий сустав робота (отмечен синим цветом) заклинивается во время движения. (Внизу справа) Вид сверху вниз сцены слева. Вся установка была перемещена в меньшую комнату.

МАНИПУЛИРОВАНИЕ РОБОТАМИ И АДАПТИВНОСТЬ

Подходы к обучению приобрели популярность за последние несколько лет. Глубокие нейронные сети как универсальные аппроксиматоры функций (12) наряду с другими мощными инструментами машинного обучения стимулируют использование обучения в манипулировании роботами. Некоторые успешные примеры-открытие двери (13), завязывание узлов (14) и сбор повседневных предметов (15-17).

Если мы говорим, что ключом к традиционным методам, основанным на моделях, является человеческий интеллект, то ключом к машинному обучению являются данные. Вместо разработки моделей и разработки алгоритмов манипулирования с помощью человеческого интеллекта подходы к обучению переносят эти нагрузки на компьютеры, чтобы автоматически находить их из данных. В процессе обучения проблемы контактного моделирования и анализа становятся неявными: учащийся может изучить свое внутреннее представление данных и получить свой собственный способ их обработки, что облегчает обычно сложный процесс ручного проектирования. В результате человеческие усилия будут направлены на разработку и настройку процессов обучения для приобретения навыков манипулирования.

Однако проблемы, связанные с изменениями в человеческой среде, все еще остаются заметными. Навыки манипулирования после развертывания робота все еще сталкиваются с вышеупомянутыми типами вариаций. Следуя квадрантам вариаций, навыки обучения манипулированию должны обладать следующими адаптивностями: (i) адаптивностью к внутренним и внешним вариациям и (ii) адаптивностью к известным и новым вариациям. Все эти адаптивности способствуют надежности усвоенных навыков манипулирования.

Стоит отметить, что адаптивность к внутренним изменениям в некотором смысле эквивалентна переносимости изученного навыка через воплощение робота: можно подумать, что изменение робота делает его “другим” роботом, так что адаптация к изменению равна передаче навыка другому роботу. Две группы адаптивностей дополняют друг друга и являются неотъемлемой частью навыков манипулирования: навык, устойчивый к внутренним и внешним вариациям, должен быть способен обрабатывать известные (ожидаемые) и новые (неожиданные) вариации.

Хотя понятие адаптивности не часто упоминается в литературе по обучению манипуляциям, все они в какой-то степени имеют дело с ним. Например, обобщение является фундаментальным для всех методов обучения, которое зависит от “известных” вариаций, передаваемых обучающими данными. В следующих разделах мы рассмотрим предыдущие исследования в области обучения манипулированию, чтобы выяснить, что они сделали, чтобы адаптироваться к известным и новым вариациям, и поговорим о внутренних и внешних вариациях, с которыми они справляются между ними.

АДАПТАЦИЯ ЧЕРЕЗ ОБОБЩЕНИЕ

Фундаментальной целью машинного обучения является получение обобщенной информации (также называемой знаниями или концепциями в этой статье), а именно создание систем, способных захватывать абстрактную информацию, которая обобщается на невидимые данные, и делать это из конечного объема обучающих данных (18, 19). Митчелл и др. (18) разделили обобщение на две формы: (i) обобщение на основе сходства, которое использует сходство в обучающих данных и полагается на индуктивное смещение, чтобы сделать поиск более эффективным. Индуктивное смещение (20) обычно является мягким руководством, например, выбором функции. Тем не менее, учащийся должен обработать большой объем данных, и в результате обобщения не хватает контекста для объяснения; (ii) обобщение на основе объяснения, которое использует успешные примеры для изучения абстрактных высокоуровневых структур (например, логической структуры) для соединения воедино разрозненных, предварительно приобретенных знаний о предметной области. Здесь структура высокого уровня-это обобщенная информация, полученная в результате обучения. Например, в задаче “возьмите банан и положите его на тарелку” логика высокого уровня такова: (объект А поднимается) → (объект А находится поверх объекта В) → (объект А освобождается) → (объект А поднимается и помещается на тарелку).объект B). Если робот обладает навыками подбора объектов, транспортировки объектов, размещения объектов и определения пространственных отношений между объектами, то изученная логика высокого уровня может использовать эти навыки для выполнения задачи на любых объектах в пределах возможностей навыков, а не только на банане и тарелке. По сравнению с обобщением, основанным на подобии, эта форма обобщения гораздо более эффективна для выборки, но требует владения всеми соответствующими знаниями предметной области (такими как навыки, которые мы упомянули в примере).

Используя методы, основанные на сходстве, в сочетании с методами, основанными на объяснении, гибридный подход может использовать лучшее из обоих миров, например, индивидуальные навыки в предыдущем примере могут быть изучены с помощью методов, основанных на сходстве. Однако в этом случае компромисс между обобщаемостью и объяснимостью должен быть сбалансирован, поскольку обобщение знаний, полученных с помощью методов, основанных на сходстве, все еще необъяснимо. Понятие объяснимости будет обсуждаться позже в этом разделе.

Термин "обобщение, основанное на объяснении" был придуман еще в 1980-х годах, поэтому в недавних исследованиях его можно назвать иначе. Например, Doumas et al. (21) назвали это “человекоподобным обобщением” в своей статье, изучающей обучение на основе предикатов. Обобщение, основанное на объяснении, широко используется при изучении демонстрационных задач, которые также будут обсуждаться.

Захват обобщенной информации

В обобщении, основанном на подобии, индуктивное смещение используется для сужения поиска в пространстве гипотез модели обучения до хорошей области, которая содержит локальный минимум, который обобщается за пределами наблюдаемых данных (20, 22). Существует множество способов введения предвзятости в обучение, таких как перекрестная проверка (23), ближайшие соседи (24) и максимальная маржа (25). Один популярный подход особенно полезен в обучении роботов манипулированию: проектирование представления данных.

Обучение представлению

Можно рассматривать представление как набор признаков, извлеченных из наблюдений (входы модели обучения), от которых часто зависят качество и эффективность обучения. Хорошее представление может сосредоточить обучение на аспектах данных, которые имеют отношение к целевому знанию.

Представления могут быть спроектированы вручную, но простота автоматического обнаружения представлений, предлагаемая методами обучения, часто предпочтительна в неструктурированных средах. Представления могут быть изучены вероятностными способами путем восстановления скрытых переменных, описывающих наблюдения, такие как машина Больцмана и ее варианты (26-28). Обычно целями обучения являются детерминированные числовые значения признаков, и в этом случае проще изучать параметрическую карту от наблюдений до представлений с помощью вычислительных графов, например глубоких нейронных сетей (29). Некоторые структуры нейронных сетей особенно подходят для некоторых представлений. Например, сверточные слои в сверточных нейронных сетях (CNN) очень хороши при извлечении локальных функций, инвариантных к трансляции (30-32); рекуррентные нейронные сети (RNNS) и их варианты, например, длительная краткосрочная память, хороши при извлечении функций с временными паттернами (33, 34). Методы, основанные на механизмах внимания, например transformer, могут ослабить зависимость RNNs от долгосрочных последовательных данных и удовлетворить параллелизм данных/вычислений (35). Вышеупомянутые структуры часто являются неотъемлемыми частями более крупных нейронных сетей и обучаются все вместе, например, сквозное обучение зрительно-моторным навыкам. Хотя можно отделить изученные представления и передать их другим нейронным сетям (36) с тщательной идентификацией, некоторые архитектуры могут создавать представления явно, например, автоэнкодер и его варианты (37, 38). Автоэнкодеры хороши в уменьшении размеров (39). Они часто обучаются самоконтролю: наблюдения распространяются через структуру кодера для получения “кода” или скрытого представления, а затем распространяются через структуру декодера. Затем выходные данные декодера сравниваются с входными данными, и ошибки распространяются обратно, чтобы минимизировать разницу между входными данными и выходными данными. Кодировщик можно использовать как карта особенности соответственно. См. (29) для подробного обзора обучения представлению.

Изученные визуальные представления широко используются в манипулировании роботами. Задачи, основанные на зрении, часто полагаются на уменьшение размеров из изученных представлений. Например, Levine et al. (40) предложили глубокую нейронную сеть для изучения политик управления зрительными двигателями, в которой сверточные слои использовались для извлечения низкоразмерных характерных точек из пикселей изображения, чтобы лучше захватывать пространственную информацию объектов. Сеть была обучена сквозным способом с большим количеством данных. Основываясь на аналогичной архитектуре, Finn et al. (41) разложенное обучение на двухэтапный процесс, основанный на выборке: во-первых, глубокий автоэнкодер на основе CNN обучается извлекать информацию о местоположении самоконтролируемым образом. Функции, создаваемые кодером, затем используются как часть наблюдений за состоянием в обучении подкреплению зрительно-моторных навыков.


Традиционно невизуальные методы зондирования также важны для манипулирования роботами. В последнее время они начали привлекать внимание к исследованиям манипуляций. Например, Fazeli et al. Позволили роботу играть в дженгу, используя датчики силы наряду с визуальными датчиками. При взаимодействии с блоком нормальная сила, вращение блока и извлечение блока использовались для оценки абстрактного статуса блока (отсутствие движения, небольшое сопротивление и т. Д.), Который, следовательно, используется в качестве входных данных байесовской нейронной сети, представляющей переход состояния блока. Cui et al. (44) использовал трехмерные (3D) сверточные слои для взаимодействия с измерениями временных рядов визуальных и тактильных сигналов. Их метод обрабатывает две модальности с разной частотой и объединяет их вместе для создания классификаций статуса захвата деформируемых объектов. Hogan et al. (42) использовали человеческую интуицию для сегментации примитивных манипуляционных действий на основе тактильных измерений, но они также указали, что представления этих примитивов могут быть изучены. В аналогичном ключе Edmonds et al. (45) изученные воплощенные тактильные представления манипуляционных действий с использованием тактильных и силовых датчиков для идентификации одних и тех же действий, выполняемых различными агентами.

Выученные представления также могут быть использованы в аналитических методах. Например, Малер и др. (46) обучили нейронную сеть на основе CNN вычислять меру сходства между 3D-объектами. Сочетая это с разработанными вручную функциями, они могут запрашивать свой набор данных Dex-Net 1.0, который содержит объектные модели и соответствующие надежные захваты, и эффективно выбирать наилучший захват для новых объектов. Усвоенные представления также могут выходить за пределы уровня восприятия. Квятковский и Липсон (47) использовал глубокую нейронную сеть, состоящую из рекуррентных, сверточных и полностью связанных слоев, чтобы изучить представление последовательностей пар состояние-действие, которое по существу аппроксимирует кинематику робота вперед при совместных и самоколлизионных ограничениях. Обзор представлений в обучении роботов для манипулирования можно найти в (10).

Подходящее смещение приводит к эффективному поиску, но без соответствующих данных ему не хватает контекста для изучения. Чтобы получить навыки манипулирования, устойчивые к будущим вариациям, учащийся должен собрать обобщенную информацию, которая охватывает эти вариации. Простое решение состоит в том, чтобы внести вариации в обучающие данные, чтобы охватить как можно больше будущих вариаций. Исследователи, работающие над манипулированием обученным роботом, попытались обогатить обучающие данные для лучшего обобщения в аппаратных экспериментах. Например, в (48) и (49), объекты были размещены в различных местах обучения, так что траектории изученных манипуляций могут обобщаться на вариации местоположений объектов. Что касается вариаций формы объекта, Yahya et al. (13) разработали метод распределенного обучения с подкреплением и использовали несколько роботов параллельно для изучения и выполнения задач открытия двери при вариациях дверной ручки.

Из-за стоимости оборудования и длительных экспериментов в реальном мире часто более желательно собирать данные или учиться в моделировании. Например, Mahler et al. (50) обновили свою Dex-Net 1.0 до 2.0, добавив большое количество синтетических облаков точек в набор данных и успешно изучив функцию надежности захвата Grapse Quality Convolutional Neural Network (GQ-CNN) из нее.

Обучение навыкам манипулирования в симуляции добавляет еще один уровень сложности: разрыв в реальности, хотя мы видели замечательные достижения в симуляции, которые производят эффективные и жизнеподобные физические эффекты (51-53), ни один из них не соответствует 100% реальной физике. Таким образом, навыки, полученные в виртуальных средах, не обобщаются непосредственно на сценарии реального мира. Более того, моделирование контактных событий в манипулировании роботами может быть гораздо более сложным, чем обычные физические события (54), что еще больше расширяет разрыв в реальности. Чтобы преодолеть разрыв в реальности, Tobin et al. (55) выступал за простую технику, называемую рандомизацией домена. Эта техника случайным образом вводит широкий спектр вариаций во время обучения и надеется, что эти вариации (i) захватят различия между симуляцией и реальностью и (ii) побудят учащегося овладеть более обобщаемыми (доменно-инвариантными) навыками. В том же свете Chebotar et al. (56) вызвали огромное количество параллельных симуляций для изучения задач открытия шкафа и поворота колышка в отверстии с параметрами моделирования, случайно выбранными из их распределений. Разница между Chebotar et al.метод и наивная рандомизация домена заключается в том,что распределения параметров не являются статичными, а приближаются к реальности благодаря обновлениям распределения после нескольких реальных развертываний изученной политики.

Иногда аппаратные конструкции с совместимыми механизмами могут упростить манипулирование роботом и уменьшить разрыв в реальности. Репрезентативный дизайн-это соответствие удаленному центру, разработанное в 1970-х годах. Оно использует польностью пассивные уступчивые механизмы для того чтобы сделать peg-in-hole агрегат робастным к боковому и угловому рассогласованию (57). Более современные адаптивные руки роботов, которые часто являются мягкими или недостаточно развитыми, позволяют стабильно захватывать самые разнообразные объекты (58-60). При использовании в обучении адаптивность этих устройств наследуется изученными навыками, что делает их более обобщаемыми. Манипуляция также становится более простой с этими конструкциями. Например, с адаптивной рукой захват может быть упрощен до правильной постановки руки относительно объекта, а не выяснения каждой точки контакта (61). При моделировании этих задач контактная динамика может быть заменена геометрическими ограничениями, что заметно снижает сложность моделирования и сужает разрыв реальности. Однако для задач, требующих точной контактной физики, например, ловких манипуляций руками, разрыв в реальности может быть еще хуже, потому что эти механизмы сложно точно моделировать из-за их деформируемости и податливости. Разрыв в реальности можно рассматривать как проблему адаптации предметной области, о которой мы поговорим в следующем разделе.

Научное соответствие

В Dex-Net 1.0 (46) наблюдения объектов были отображены в метрическом пространстве, в котором точечные расстояния соответствуют сходству между объектами. Это версия метрического обучения (62). Как упоминалось в (10), такая мера сходства может быть установлена на разных уровнях между объектами, частями и точками.

Некоторые недавние исследования привели к плотному заочному обучению манипулированию роботами. Слово “соответствие” происходит от оценки соответствия, которая широко используется в компьютерном зрении для определения соответствующих частей на разных изображениях. Слово “плотный” означает, что такие соответствия определяются на уровне пикселей, т. Е. пиксель на одном изображении соответствует пикселю на другом изображении. Объединяясь, плотное переписное обучение стремится изучить дескриптор в метрическом пространстве для каждого пикселя. Расстояние между двумя пикселями представляет их сходство: чем ближе они находятся в метрическом пространстве, тем больше они похожи на изображениях (63, 64).

Плотный дескриптор соответствия может принести пользу манипулированию роботом, если пиксели связаны с полезной информацией. Например, пиксель на ручке кружки на изображении представляет собой небольшую область поверхности на фактической ручке, которая связана с ее физическими свойствами, такими как положение в мировом кадре и условия контакта. Флоренс и др. (15) представил метод, который предоставляет пользователям большую гибкость в выборе точек захвата для захвата объекта. Они разработали автоматизированный обучающий конвейер для изучения плотных дескрипторов для одного объекта, смешанных объектов в одном классе объектов и смешанных объектов из разных классов. Когда пользователь выбирает точку из эталонного изображения объекта, плотный дескриптор может возвращать соответствующую точку в только что сделанном изображении. Затем робот захватит и поднимет объект в соответствии с 3D-положением выбранной точки, запрошенной с помощью прилагаемого изображения глубины. Аналогично, Zakka et al. (65) использовал плотные дескрипторы для определения и сопоставления позиций и ориентаций объектов в задачах сборки наборов 2.5 D и продемонстрировал обобщение на некоторые невидимые наборы.

В отличие от сквозного обучения, в приведенных выше примерах обучение использовалось только для плотного соответствия, оставляя большинство частей манипулирования традиционным аналитическим модулям. Впечатляющие приложения, поддерживаемые learned dense correspondence, предполагают, что обучение, даже на уровне модуля, может значительно улучшить манипулирование роботами. Хотя в сообществе нет единого мнения о том, какая часть манипуляции должна быть изучена, есть много интересных подходов и компромиссов для рассмотрения.

Модульность, переносимость, настраиваемость и объяснимость

Bengio et al. (29) заметили, что выученные представления захватывают базовые знания наблюдений, таким образом, при совместном использовании могут обеспечивать многозадачность, обучение передаче и адаптацию домена. Это, по сути, рассматривает изученные представления как модули “знания предметной области”. Как обсуждалось в начале этого раздела, обобщение, основанное на объяснении, изучает и обобщает объяснимую высокоуровневую структуру, основанную на разрозненных знаниях предметной области. Знание предметной области может быть заменено изученными представлениями, чтобы сформировать гибридную схему обобщения на основе объяснения и подобия.

Чтобы извлечь из этого выгоду, необходимо разработать соответствующие представления для задач манипулирования. Существует множество способов декомпозиции задачи на подзадачи. Кроме того, подзадачи также могут иметь внутренние структуры, которые могут быть дополнительно разложены. В конце концов, задача может быть разбита на структуру задач атомарных примитивов действий. Однако в манипулировании роботами примитивы действий зависят от робота. Как Zech et al. (66) отмечено, что представление действия в робототехнике связано с восприятием, воплощением и приведением робота в действие. Например, примитивы действия могут быть взяты из примитивов мобильности, восприятия и управления робота. Для достижения лучшего обобщения представление задачи должно сбалансировать степень детализации декомпозиции задачи.

Например, представление, наиболее устойчивое к внутренним вариациям, должно быть независимым от специфики агентов, чтобы оно могло обобщаться между классами агентов “нулевым выстрелом” (67), например, передача навыка обучения манипулированию от человека роботу без обучения робота. Edmonds et al. (45) предложил высокоуровневое представление задачи для задачи открытия бутылки с лекарством, в которой робот учится на демонстрациях человека справляться с хитрыми механизмами блокировки крышки. Каждое человеческое действие, например, скручивание колпачка, измеряется тактильно, и низкоразмерные представления измерений запоминаются с помощью автоэнкодера. Другой кодер обучен сопоставлять тактильные измерения от действий робота к изученным представлениям эквивалентных действий человека. Это приводит к агентурно-агностическим представлениям, таким образом, что обучение графа решений высокого уровня отделено от действий низкого уровня. Кроме того, граф изученных решений может командовать роботом для выполнения задачи непосредственно без обучения робота.

Модульность также обеспечивает настраиваемость. Например, Араки и др. (68) предложили архитектуру нейронной сети, основанную на линейной временной логике и сети итераций значений. Они изучают политику, используя двухуровневое представление задачи с высокоуровневым конечным автоматом (FSA) и низкоуровневым марковским процессом принятия решений. Изменяя матрицу перехода FSA, они могут изменить состав задачи, например, изменить задачу робота с “сначала забрать и упаковать гамбургер, затем банан” на “сначала забрать и упаковать банан, затем гамбургер”.

Два приведенных выше примера демонстрируют определенные уровни объяснимости. График обученных решений в (45) объясним, потому что он направляет робота на выполнение действий с семантическими значениями, так что выполнение задачи может быть объяснено в понятных человеку терминах, например, “Робот нажал крышку и повернул ее три раза, и бутылка открыта”. Во втором примере (68) объяснимость исходит из высокоуровневого FSA, в котором каждое состояние понятно человеку, например, “робот схватил банан”.

Все большее внимание уделяется модуляризации политик управления для задач манипулирования путем введения иерархий политик. Начиная с примитивных действий, Riedmiller et al. (70) изучили навыки манипулирования среднего уровня, называемые “намерениями”, и планировщик высокого уровня для последовательности навыков выполнения задач. В аналогичном ключе Hausman et al. (71) изучил разнообразные навыки манипулирования среднего уровня, используя энтропийно-регуляризованный метод в многозадачной обстановке. Они создали ручки навыков в низкоразмерном пространстве, чтобы эффективно перекомпозировать изученные навыки для новых задач. С помощью политики максимальной энтропии Eysenbach et al. (72) еще больше расширили разнообразие изученных навыков среднего уровня. Также возможно больше уровней. Например, Levy et al. (73) изучили несколько уровней политики контроля, причем политики более высокого уровня налагают подцели на политики более низкого уровня. Ретроспектива (74) переходы как для целей, так и для действий использовались для решения проблемы нестационарного перехода состояния во время внеполитического обучения. Хотя эти исследования продемонстрировали жизнеспособность использования различных уровней абстракций для представления выученных манипуляций роботами, адаптивность, которая может возникнуть вместе с этими представлениями, не была широко изучена, особенно при преодолении внутренних вариаций.

АДАПТАЦИЯ ЗА ПРЕДЕЛАМИ ОБОБЩЕНИЯ

Адаптивность через обобщение основана на предположении, что знания, полученные роботом в обучающей среде (исходный домен), обобщаются на изменения в новой среде (целевой домен). Тем не менее, всегда можно столкнуться с новыми вариациями в человеческой среде, на которые старые знания не распространяются. Адаптация к ним требует большего, чем обобщение. В частности, требуются следующие две способности: (i) способность постоянно адаптироваться к новым вариациям и (ii) способность запоминать и опираться на ранее приобретенные навыки.

Первая способность более фундаментальна: это первый шаг для робота, чтобы приспособиться к постоянно меняющейся человеческой среде. Для его достижения важно собирать данные о новых вариациях и учиться на них. Решение заключается в использовании методов обучения, которые могут активно исследовать и собирать такие данные, например, обучение с подкреплением и онлайн-обучение. Иногда исследование может быть трудным, например, исследование пространства, в котором объекты распределены редко. Таким образом, иногда желательно обучение на примерах выполнения задач.

Вторая способность дополняет первую, позволяя учиться, не забывая. Более формально он решает критическую проблему непрерывного обучения, называемую катастрофическим забыванием или катастрофическим вмешательством, при котором обучение новым данным может перезаписать уже изученные навыки. Эта проблема в первую очередь изучается в парадигме непрерывного обучения, которая еще не применена к манипулированию роботами в масштабе. Распространенными подходами к катастрофическому забыванию являются аугментация на основе памяти, переподготовка на основе расширения и переподготовка на основе регуляризации. Все эти методы сталкиваются с проблемами, связанными с размерностью, производительностью и сложностью обучения, и активно совершенствуются сообществом. Здесь мы сосредоточимся на первой способности. Читатели, заинтересованные в катастрофическом забывании, могут получить дополнительную информацию из.

Методы адаптации домена

Перед лицом новых вариаций простой способ адаптации состоит в сборе большего количества данных для длительных тренировок, как это видно в работе Квятковского и Липсона, посвященной внутренним вариациям: когда произошло новое изменение тела робота, то есть звено робота заменяется новым звеном.более длинная связь с разницей углов, ранее изученная нейронная сеть может быть постепенно обучена относительно небольшим новым набором обучения для восстановления функциональности.

Объем новых обучающих данных может быть существенно уменьшен, если адаптируемые навыки “научились учиться”. Finn et al. (76) представила модель-агностическое мета-обучение (MAML) в поле в 2017 году. Основная идея похожа на рандомизацию домена: вводя больше вариаций домена во время фазы обучения, учащийся может усвоить больше абстрактных знаний, которые лучше обобщаются на будущие вариации. Разница заключается в том, что MAML не сразу обновляет параметры ученика после обучения каждой вариации. Вместо этого при каждом обновлении он собирает потери от всех выборочных вариаций в стиле обучения-проверки. Интуитивно понятно, что обновления в MAML “справедливее” для всех вариаций, что может заставить учащегося изучать навыки адаптации вместо запоминания вариаций, показанных в данных обучения. В их другой работе однократная адаптация (адаптация к новой вариации с использованием только одного нового учебного примера) по вариациям задач манипуляции была достигнута с использованием варианта MAML (77).

Как упоминалось ранее, модульность изученных навыков может способствовать адаптации домена. Когда разница между исходным доменом и целевым доменом находится на уровне восприятия, вместо инкрементного обучения можно попытаться уменьшить разницу между исходным доменом и целевым доменом, например, преобразовать наблюдения в исходном домене, чтобы они соответствовали наблюдениям в целевом домене (78). Этот подход особенно полезен для преодоления разрыва в реальности, когда различия в восприятии могут быть существенными между симулятором и реальностью. Например, Bousmalis et al. (79) обучил генеративную состязательную сеть (GraspGAN) визуализировать смоделированные сцены, чтобы визуально соответствовать реальности в сквозной задаче обучения схватыванию. Они также дополнили DANN (80), чтобы изучить инвариантные к предметной области функции, что дополнительно позволило эффективно передавать изученные навыки захвата от моделирования к аппаратному обеспечению. Для дальнейшего чтения Tobin et al. (55) подробно обсуждают адаптацию домена в разделе "Связанные работы".

Активное обучение и исследование

Адаптация домена может быть эффективной с точки зрения данных. Однако обучение с нуля иногда неизбежно, когда вариации слишком велики. Активные методы обучения обеспечивают хорошие решения в таких случаях.

Термин “активное обучение” был введен Cohn et al. (81) в 1990-х годах для описания методов обучения, которые контролируют входные данные, на которых они тренируются. Эта способность обеспечивает автономный сбор данных и обучение, что очень хорошо подходит для практических сценариев: после развертывания робота часто бывает так, что у пользователей не будет оборудования и возможности собирать данные и обучать робота самостоятельно.

При обучении манипулированию обычно целью является политика управления, которая может командовать роботом для выполнения задачи посредством последовательных наблюдений и действий. Политика замкнутого цикла важна, поскольку роботы должны реагировать как на статические, так и на динамические изменения в человеческой среде (82, 83). Политики часто аппроксимируются глубокими нейронными сетями. Чтобы найти хорошую политику, можно напрямую искать в пространстве гипотез (или пространстве политики, пространстве, охватываемом переменными нейронной сети, моделирующей политику). Наиболее наивным методом является случайный поиск, который является антитезой активного обучения: политики генерируются путем случайного выбора моделей обучения и назначения их параметров (84). Функция вознаграждения часто используется для оценки развертывания политики для выбора политики. Поскольку этот метод потенциально может искать все пространство гипотез, существует вероятность получения глобально оптимальной политики. Однако вероятность обычно чрезвычайно мала, учитывая большое пространство гипотез глубоких нейронных сетей. Более систематический и “активный” поиск использует эвристику, такую как эволюционные алгоритмы, и более активно использует награды для руководства поиском (85, 86). Оптимизация на основе градиента, такая как обратное распространение со стохастическим градиентным спуском, часто интегрируется с системами активного обучения, например, в большинстве методов глубокого обучения с подкреплением. По сравнению с вышеупомянутыми примерами, обучение с подкреплением обычно исследует пространство гипотез в более тонком масштабе с точки зрения обновлений политики: независимо от того, является ли конкретный метод “включенным в политику” или “выключенным из политики”, политика обычно обновляется сразу или вскоре после каждого действия. Хороший обзор обучения подкреплению в робототехнике можно найти в (87).

Активные методы обучения подвергаются компромиссам между разведкой и эксплуатацией. Они обычно начинают с исследования, чтобы искать дико по ландшафту гипотезы, чтобы редко покрывать ее ширину. Эксплуатация, с другой стороны, уточняет поиск в субрегионе, так что политика может, наконец, сойтись к локальному минимуму в отношении конкретной функции вознаграждения. Вообще говоря, исследование сложно даже для людей, например, для нас сложно изучить новый предмет исследования или новый вид спорта с нуля. В частности, ключевыми проблемами в методах, основанных на разведке, являются (i) как эффективно и результативно исследовать (ii) когда переходить от разведки к эксплуатации-если разведка прекращается преждевременно, например, до того, как был установлен какой-либо контакт между роботом и целевым объектом, эксплуатация не приведет к существенному прогрессуна пути к захвату объекта. С другой стороны, исследование не должно продолжаться вечно, не сходясь к решению.

Краткое изложение стратегий исследования можно найти в (10). В основном исследования в этой области направлены на решение следующих вопросов: (i) как обеспечить прогресс в разведке, (ii) как обеспечить тщательность разведки и (iii) как обеспечить эффективность разведки. Предпосылкой для прогресса исследований является непрерывность: агент должен иметь возможность постоянно исследовать. OpenAI и соавторы продемонстрировали ловкое манипулирование твердыми кубиками (88) и кубиками Рубика (89). Однако их результаты были основаны на предположении, что рука робота находится ладонью вверх. Если рука находится ладонью вниз, то объект может часто падать во время исследования, что нарушает непрерывность. В том же свете отрасль исследований изучает стратегии безопасной разведки, чтобы предотвратить повреждение робота или неисправимые сбои во время разведки. Некоторые непосредственно применяют набор правил безопасности, чтобы предотвратить определенные действия, ведущие к небезопасным состояниям (90); некоторые кодируют спецификации безопасности задач в функции вознаграждения, чтобы побудить агентов безопасно исследовать (91). Обзор безопасного исследования в обучении подкреплению можно найти в (92). Хотя безопасная разведка уменьшает количество неудач в разведке, что помогает поддерживать непрерывность разведки, она может ограничить разведку подпространством, так что поиск может быть не тщательным (93). Например, установление пороговых значений расстояния для предотвращения столкновений может помешать роботу найти узкие проходы.

Тщательность в исследовании также является сложной задачей. Можно утверждать, что наиболее тщательное исследование-это равномерный случайный поиск в пространстве всех возможных политических представлений и их параметров. Это может быть вероятностно полным, но может потребоваться вечность, чтобы найти хорошее решение. Вместо вероятностной полноты более интересной может быть способность исследовать, не попадая в ловушку локальных минимумов, что имеет решающее значение для постоянного улучшения изученных политик. Популярные методы обучения с подкреплением, такие как варианты Q-learning (94, 95), часто используют ε-жадные стратегии с распадом, которые начинаются со стадии исследования с большим количеством случайных действий, а затем переходят к стадии эксплуатации с большим количеством действий из политики. Часто этот процесс необратим: как только он сходится, он застревает в локальном минимуме. Более сложные методы используют адаптивные стратегии для баланса разведки и эксплуатации, позволяя повторно входить в стадию разведки, когда агент не уверен в принятии решений (96, 97). Эти методы более стабильны и могут сходиться к лучшим локальным минимумам, но они зависят от эвристики, т. Е. Меры неопределенности. Методы градиента политики (98, 99) исследуют, следуя градиентам с шумом, которые могут обеспечить более плавную конвергенцию; однако они обычно занимают много времени и все еще сталкиваются с проблемами локальных минимумов.

В конце концов, эффективность исследования также важна. Может ли метод дать достаточно хорошую политику за относительно короткий промежуток времени? Исследование может быть не сложным для определенных задач, таких как простые непрезентабельные манипуляции (толчок, наклон и т. Д.) И Регулярный выбор места. Однако для задач, связанных с обширным переключением контактных режимов, учащийся может неизбежно исследовать большое пространство контактных режимов, размер которого растет экспоненциально с количеством контактов. Вычислительные методы могут предоставить альтернативные решения даже в худшем случае, когда необходим исчерпывающий поиск: когда обучение выполняется в моделируемых средах, оно может извлечь выгоду из параллелизма данных, используя огромное количество симуляторов для одновременного сбора данных. Успешные подходы были замечены в форме параллельных вычислений (100) и распределенных систем (101, 102). Хотя эти подходы повышают эффективность выборки, необходимы более систематические анализы, чтобы полностью понять взаимосвязь между эффективностью выборки и эффективностью обучения.

Learning from demonstrations

Активное обучение-не единственный способ приобрести новые навыки. Фактически, когда люди учатся, мы часто используем внешнее руководство: письменные описания, устные инструкции, визуальные демонстрации, практическое руководство и т. Д., Все это может повысить эффективность обучения. Точно так же, когда новые ситуации требуют, чтобы роботы быстро адаптировались, вместо того, чтобы неустанно исследовать сами, они могут запрашивать успешные примеры и изучать критическую информацию, которую может быть трудно найти с помощью исследования. Как видно из работы Edmonds et al. (45), чтобы открыть бутылки с лекарствами, роботу может потребоваться повернуть крышку, нажимая на нее, что является труднодоступной информацией путем исследования. Тем не менее, эта информация может быть извлечена из человеческих демонстраций. Методы, которые передают навыки роботам через примеры выполнения задач, часто имеют одно из следующих названий, которые используются взаимозаменяемо: программирование демонстрацией, обучение демонстрацией, имитационное обучение, обучение наблюдением, клонирование поведения и т. Д.

Кинестетическое обучение-популярный метод, который позволяет роботам непосредственно выполнять задачи, например, перетаскивать робота или управлять им для выполнения задачи. Часто траектории измерений датчиков, такие как показания совместного энкодера и показания датчика силы/крутящего момента, записываются в качестве обучающих данных.

Косвенные методы обучения часто требуют, чтобы роботы наблюдали за демонстрациями других агентов. Из таких наблюдений можно извлечь различные уровни информации: подобно кинестетическому обучению, можно получить траектории из демонстраций, например, траектории пространства состояний конечного эффектора с использованием системы захвата движения; получить высокоуровневую структуру, которая связывает примитивы задач, например, конечный автомат с изученными переходами в качествев (68); или изучите функцию вознаграждения, которая может быть использована в обучении, основанном на исследовании, например, обратном обучении подкреплению (103). Для получения общей информации в этой области Аргалл и др. (104) дают всесторонний обзор методов демонстрации и выработки политики; Равичандар и др. (105) дают систематическую категоризацию с точки зрения вклада в обучение и результатов для более поздних работ.

Помимо деталей, демонстрационное обучение можно свести к следующему вопросу: какая информация может быть извлечена из примеров и передана учащемуся? Вообще говоря, успешное выполнение задачи требует достаточного охвата всех необходимых условий задачи. Для задач манипулирования эти необходимые условия часто объектно-ориентированы: мы заботимся только о конфигурации целевых объектов во время и после задачи. Передача навыков на основе траекторий суставов роботов является наиболее простой, но она основана на предположении, что изменения состояния объекта связаны с изменениями состояния суставов роботов (из-за контакта), что не гарантируется. Например, Угур и Гиргин (106) используйте динамические примитивы движения и параметрические скрытые марковские модели для изучения совместных космических траекторий с силовой связью для внешнего наведения. В задачах манипуляции, которые они представляют, либо предполагается контакт, т. Е. Робот и ручка шкафа прикреплены в начале, либо захват должен быть расположен в месте предварительного захвата с помощью человеческого руководства. Аналогично, в (107) робот нуждается в человеческом сотрудничестве, чтобы установить контакт с объектами в задачах встряхивания бутылок и рисования коктейлей.

Хотя обучение на основе траекторий эффективно для прямой передачи навыков, оно не подходит для сложных задач. Например, Zhang et al. (108) показывают основанное на траектории, сквозное обучение зрительно-моторной политике для более сложных задач, например, выбрать мяч, поместить его в тарелку, а затем подтолкнуть тарелку к целевому местоположению. Однако их метод подходит только для задач с последовательной композицией действий. Для изучения/передачи более сложных задач, которые могут иметь иерархию задач и/или логику принятия решений, необходимо извлекать информацию на более высоком уровне, чем траектории.

Обсуждаемое исследование, когда речь идет о модульности, служит здесь хорошим примером: в FSA Araki et al. (68) вероятности перехода состояний изучаются так, что робот может выполнять действия недетерминированным образом, подобно людям (напомним, что в задаче упаковки ланч-боксов можно подобратьи сначала упакуйте банан, затем гамбургер или упакуйте их в обратном порядке); Edmonds et al. (45) изучили высокоуровневый граф решений, который является символической грамматикой стохастической манипуляции [см. (109) для получения более подробной информации о грамматике манипуляции] для захвата принятия решений человеком в различных ситуациях во время открытия бутылок с лекарствами, например, если pinch open не работает, попробуйте нажать и повернуть.

Приведенные выше примеры зависят от ручной сегментации и аннотации состояний задач и действий, которые можно изучить. Учитывая демонстрации совместной пространственной траектории, резкие изменения могут быть использованы для сегментации движений, например, существенные изменения положения и скорости (110). Аналогично, для обучения манипуляционным действиям изменения состояния объектов могут использоваться в качестве сигналов для идентификации действий. Zampogiannis et al. (111) используют пространственные отношения объектов во время манипуляции для представления атомарных действий для автоматической классификации действий. Основываясь на классификаторе объектов и классификаторе действий, Ян et al. (112) изучите вероятностную грамматику действий, аналогичную работе Araki et al. (68).

Изучение демонстрации манипуляций роботами все еще находится на ранней стадии, оставляя открытыми вопросы исследований. Мы обсудим это вместе с возможностями в других областях в следующем разделе.

Обсуждения

В предыдущих разделах мы рассмотрели подходы, которые вносят вклад в адаптивность манипулирования обученными роботами. Обучение представлению и сбор данных были обсуждены для эффективного и эффективного захвата обобщенной информации. Изученная плотная переписка продемонстрировала силу изученных модулей в катализирующих приложениях манипулирования роботами. Дальнейшие обсуждения были сделаны, чтобы показать, что модульные представления могут обеспечить переносимость, настраиваемость и объяснимость. Перед лицом новых вариаций активное обучение и обучение с помощью демонстрационных методов обеспечивают потенциальные решения. Они оба позволяют роботам осваивать новые навыки манипулирования, но ключевые проблемы все еще остаются открытыми, например, обучение ловким манипуляциям и постоянное совершенствование навыков после развертывания.

Чтобы повысить способность и адаптивность манипулирования обученными роботами, можно задать следующие вопросы: (i) Какая часть манипулирования должна быть изучена, и какие программные и аппаратные усовершенствования необходимы для поддержки этого? (ii) Что делать, чтобы лучше улавливать обобщенную информацию? Используйте специальные методы обучения, инновационные архитектуры, разработку представлений или дополненные наборы данных? (iii) Как обеспечить передачу знаний в случае внешних, внутренних и новых вариаций? (iv) Как расширить активное обучение или обучение с помощью демонстрационных методов,чтобы обеспечить постоянную адаптацию? (v) 

Что можно сделать с помощью программного или аппаратного обеспечения для повышения эффективности процесса обучения?

  На сегодняшний день ответы на эти вопросы были даны лишь частично, что оставляет большие возможности для дальнейших исследований, как показано ниже:

1) Обучение представлению с более чувствительными модальностями. Большинство предыдущих исследований сосредоточены на визуальном восприятии. Действительно, это, возможно, самая важная сенсорная модальность для роботов; однако существует ключевое ограничение, которое делает зрение само по себе неспособным охватить все сценарии манипуляции: оно не может ощущать контакт, если область контакта визуально заблокирована. Фактически, люди используют мультимодальные сенсорные сигналы во время манипуляции (113), который включает в себя, но не ограничивается тактильными, слуховыми и температурными сигналами. Добавление представлений этих модальностей зондирования обеспечит более целостное понимание текущих состояний системы и, таким образом, повысит эффективность обучения.

2) Продвинутые симуляторы для манипуляций. Прежде чем роботы и датчики, такие как промышленные роботизированные руки и тактильные сенсорные массивы с высоким разрешением, станут намного дешевле и безопаснее для контактных событий, физические симуляторы имеют решающее значение для обучения манипуляциям. В идеале мы надеемся, что симуляторы будут максимально быстрыми и реалистичными. Идя на компромиссы в физической точности, мы уже можем наслаждаться быстрым (во многих случаях быстрее, чем в реальном времени) моделированием, например, MuJoCo (51). Тем не менее, реалистичная физика по-прежнему является сложной задачей для современных симуляторов, особенно когда речь идет о контактном моделировании (54), который становится еще более сложным, когда в игру вступают деформируемые объекты и роботы. Более того, желательно иметь симуляции для большего количества сценариев манипулирования (манипулирование жидкостью, резка/разрушение объектов и т. Д.) И большего количества физических модальностей (звук, температура и т. Д.).

3) Настройка задач/навыков. В качестве источника внешних вариаций пользователи роботов могут изменять состав задачи или спецификацию задачи. Как обсуждалось ранее, для этих настроек следует использовать модульность манипуляции и методы адаптации домена.

4) “Портативные” представления задач. Предыдущие исследования в основном фокусировались на обобщении внешних вариаций, оставляя адаптацию к внутренним вариациям едва затронутой. Как обсуждалось, ключом к такой адаптации является определение надлежащего уровня абстракции (представления) задачи манипуляции. Когда представление задачи отделено от конкретного воплощения, изученное представление может быть передано между агентами. Здесь интересный вопрос заключается в том, насколько абстрактными должны быть представления для внутренних вариаций, возникающих на разных уровнях декомпозиции задачи.

5) Информированное исследование для манипуляции. Активные методы обучения могут найти новые навыки для новых вариаций. Исследование на основе случайной выборки хорошо работало при планировании движения [например, быстро исследуемое случайное дерево (114)]. Однако из-за разреженного характера событий контакта он очень неэффективен для задач манипулирования. С другой стороны, разреженность контактных событий налагает сильную мотивацию для принятия обоснованного исследования, аналогичного методам обоснованного отбора проб, наблюдаемым при планировании движения, таким как целенаправленные и учитывающие препятствия методы (115-117). Обычно агенты обучения подкреплению получают такую информацию из функций вознаграждения, которую может быть трудно спроектировать вручную. Ретроспективный опыт replay (74) показывает, что для некоторых простых задач, таких как достижение и толкание, навыки могут быть изучены даже с редкими наградами. Однако теоретическая гарантия сходимости и применимости к более сложным задачам манипулирования требуют дальнейшего изучения.

6) Постоянное исследование. Как уже упоминалось ранее, освоенный навык трудно постоянно совершенствовать после развертывания робота. Наивный способ достичь этого-держать поток моделирования занятым обучением новым вариациям, используя при этом наилучшую политику, доступную для физического робота. Тем не менее, более сложные методологии должны существовать и ждут, чтобы их нашли.

7) Массово распределенное/параллельное активное обучение. При обучении навыкам с нуля эффективность является критическим показателем. Большинство предыдущих исследований используют параллелизм данных для расширения однопоточных активных методов обучения. Однако связь между эффективностью выборки и эффективностью обучения неясна, что требует более тщательных исследований. Более того, для дальнейшего повышения эффективности требуются новые активные методы обучения, которые могут извлечь выгоду как из параллелизма данных, так и из модели.

8) Аппаратные инновации. Как уже обсуждалось, аппаратные конструкции с совместимыми механизмами (57-61) могут упростить манипулирование роботом и повысить адаптивность, но они часто ограничены задачами с простыми контактными событиями, например, статическим захватом. Необходимы дополнительные исследования для упрощения более сложных задач манипулирования, например, ловких манипуляций руками. Некоторые ранние проекты-Теневая ловкая рука (118) и Джамханд (119). Первый почти полностью активирован (только 4 из 24 суставов недостаточно активированы), тогда как второй нет, но, тем не менее, способен к основным ловким манипуляциям. Более того, хотя деформируемость и соответствие этим устройствам обеспечивают безопасность и надежность, их сложно точно и эффективно моделировать. Для достижения хороших результатов обучения в моделировании было бы целесообразно искать удобные для моделирования конструкции и материалы. Больше дискуссий о разработке аппаратного обеспечения для манипулирования роботами можно найти в обзорной статье Билларда и Крагича (120).

9) Производительность в реальном времени. В конце концов, навыки манипулирования будут проверены в реальном мире. Задержка и частота контуров управления роботами имеют решающее значение, особенно в динамических сценах. Разработка моделей и алгоритмов быстрого обучения имеет важное значение. Например, Morrison et al. (16, 83) предложил легкую нейронную сеть (генеративная сверточная нейронная сеть захвата), которая позволила управлять замкнутым контуром 50 Гц (часто намного медленнее в предыдущих исследованиях) для захвата на основе зрения. В дополнение к программному ускорению аппаратное обеспечение также имеет решающее значение для дальнейшего улучшения манипулирования обученным роботом. Быстрое восприятие, коммуникация и приведение в действие являются предпосылками для сложных задач ловких манипуляций, которые могут потребовать итераций управления с низкой задержкой с частотой до 1 кГц или даже выше.

Здесь, хотя мы стремились быть как можно более всеобъемлющими, мы не можем найти и рассмотреть все замечательные работы, связанные с этой широкой темой. Тем не менее, иллюстрируя идею адаптивности в манипулировании обученными роботами обзорами современных исследований, мы надеемся, что предоставили уникальную перспективу сообществу манипуляций, которая породит больше дискуссий и идей, ведущих к более светлому будущему манипулирования роботами.

По материалам ресурса science.org


Комментарии

Популярные сообщения из этого блога

Социальная жизнь роботов

Искусственный кончик пальца дает роботам почти человеческое прикосновение

Эти "потные" роботы охлаждают себя быстрее, чем люди