Визуально-языковые модели для навигации и манипуляции

НачалоМоделируем историюНеявная рекурсивная картаМанипуляцияСтратегии движения роботовPolarNetЗаключение

Приглашённый профессор MBZUAI и руководитель исследований в VisionLabs Иван Лаптев расскажет о том, как робототехника, компьютерное зрение и обработка естественного языка помогают разрабатывать всё более сложные модели и какие задачи ещё предстоит решить.

Если роботу нужно убраться в квартире, ему понадобится компьютерное зрение, обработка естественного языка и робототехника. Процесс наведения порядка можно разложить на две подзадачи: навигацию и манипуляцию.

С навигацией — перемещением в пространстве — легко справится предобученная робособака. С манипуляцией сложнее, потому что нужно взаимодействовать с предметами, которые не всегда можно симулировать с помощью 3D-модели, например салатом.

Несмотря на многолетнее развитие робототехники и компьютерного зрения, до сих пор нет системы, которая бы справилась с наведением порядка в помещении или приготовлением еды. В выступлении спикер рассказал о научных трудах, которые созданы им совместно с коллегами и студентами. Работы о манипуляции и навигации роботов помогут приблизиться к решению сложных для робота задач готовки и уборки.

Задача. В статье History Aware Multimodal Transformer for Vision-and-Language Navigation описана ситуация, когда робот без карты помещён в дом. Ему нужно понимать текстовые инструкции и следовать им. Обстановку вокруг себя робот изучает с помощью компьютерного зрения. Также он должен сопоставить визуальные наблюдения с текстовыми и сохранить полученные ранее визуальные данные. Эксперимент можно проводить офлайн без использования симулятора.

Сложности. Легко потеряться, если робот не создаёт карту или не запоминает события. Он будет ездить по кругу.

Решение. Создаётся история наблюдений и действий. Разработчики предлагают архитектуру трансформера HAMT, которая принимает на вход несколько типов данных: текстовые инструкции, изображения и даже действия.

Цель — представить историю наблюдений с помощью трансформера. Можно просто добавить все предыдущие наблюдения и обучать модель, но это станет проблемой для памяти. Именно поэтому в HAMT использовали архитектуру иерархического трансформера. С помощью визуального энкодера (ViT) кодировали изображения, сделанные с разных ракурсов. Затем с помощью панорамного трансформера объединяли их в вектор, учитывая пространственные связи между ними. После этого сохраняли временные зависимости между панорамами с помощью темпорального трансформера.

Результаты. Показатели HAMT лучше, чем у всех остальных методов, которые были актуальны на момент публикации исследования (SoTA, state-of-the-art-архитектуры). Чем длиннее путь робота до конечной цели, тем лучше результат HAMT по сравнению с SoTA. Это происходит благодаря памяти.

Ограничения. У HAMT это последовательность наблюдений. Робот может двигаться по кругу и не осознавать этого. Данная проблема решена в DUET: если робот застрял, нейросеть может выбрать любой узел, а не только ближайшие к текущему положению.

Как это работает. Например, робота поместили в музей и дали ему текстовые инструкции о том, как добраться до цели. Однако задача не так проста, как кажется, потому что в определённый момент робот добрался до развилки с двумя красными дорожками. Он не знал, в какую сторону идти. При неверном выборе он застревал и не мог выполнить следующую команду «поверни направо», потому что она была невозможна в его текущем положении. Нужно было выбрать другую задачу. В данном случае нейросеть автоматически решила, что роботу нужно вернуться и выбрать на развилке другой путь.

Важно отметить, что синтаксический анализ визуализированных на видео текстовых инструкций делался разработчиками, а не нейросетями. В данном случае не было явного синтаксического анализа текста.

В статье о навигации Object Goal Navigation with Recursive Implicit Maps описывается модель, которая пытается составить неявное представление об окружающем пространстве дома — понять, как комнаты расположены относительно друг друга. Этому методу также можно научить реального робота.

Механизм. Есть единица памяти. Если уменьшать её вектор за вектором, она станет рекуррентной нейросетью или рекуррентным трансформером. В ходе исследования разработчики кодировали пространственную структуру: когда модель находилась в определённой точке, отмечали фрагмент куба. При перемещении модели действие повторяли с новым фрагментом, обновляя и дополняя память.

Для обучения использовали 3D-изображения домов.

В итоге получилась пространственная карта с координатами, которая также служит памятью.

Архитектура — трансформер, обученный end-to-end. Инструкции отличаются: робот имеет не текстовые команды, а только конечную цель, которую должен найти, перемещаясь по помещениям. Например, стул.

Модель была обучена методом поведенческого клонирования, когда под наблюдением робот получает истинные (ground-truth) траектории.

Результаты. Модель запоминает места, в которых раньше была. Это помогает ей ориентироваться в пространстве.

Благодаря тонкой настройке (fine-tuning) стратегию, использованную в симуляции, можно применить к реальному роботу. В результате он успешно находит заданные предметы: растение, раковину, диван

Решаемые задачи далеки до сложности действий при уборке, но это только первый шаг.

Перейдём к работам о манипуляции. Это более сложное действие, потому что нужно имитировать множество движений и физических явлений. При этом есть задачи, в которых роботы могут быть полезны, например сборка мебели или приготовление еды.

Сейчас роботы хорошо производят машины, при этом пока не могут решать бытовые дела.

Проблемы и методы их решения:

  • Много задач

Проблему множества задач помогут решить словесные описания.

  • Нехватка точности. Например, вдеть нитку в иголку или открыть бутылку с помощью штопора.

Точности можно достичь, используя данные с нескольких камер.

  • Недостаточно текущих наблюдений, потому что они не отражают всех физических явлений.

Чтобы решить эту проблему, нужно собрать полную историю наблюдений, как описано в работах по навигации.

  • Мир сложный. Много текстур и объектов, сложно воспроизводить всё в 3D.

Для того чтобы справиться с обилием материалов и предметов без 3D-моделей, можно использовать сенсор RGB+D.

Для решения поставленных задач нужно использовать архитектуру трансформера, потому что она может обрабатывать различные типы данных: текстовые описания, фотографии с нескольких камер, карты глубины.

В работе Instruction-driven history-aware policies for robotic manipulations использовали pre-trained модель CLIP, потому что для обучения стратегии с нуля недостаточно данных. Для поставленной задачи CLIP работает лучше BERT, поскольку она обучена не только на текстах, но и на картинках и умеет распознавать цвета.

На вход подавали данные с нескольких камер, которые отражали текущее и все предыдущие положения робота в пространстве.

Токенизация данных. Полученные изображения прогоняли через UNet и получили наблюдения для сцены. С помощью пространственного измерения разделили их на ракурсы (dimensions).

Для создания токенов можно использовать channel tokens и patch tokens. По данным экспериментов, patch tokens лучше.

Исследователи использовали Cross-Attention: инструкции и история прошлых наблюдений создали контекст для текущих наблюдений. Обучали модель методом поведенческого клонирования.

Задание. Авторы научной работы симулировали физические процессы, например трение и гравитацию. Для части заданий использовали тонкую вариацию (fine-grain variation) — например, усложняли формулировки задач. Это помогло протестировать язык. Таким образом можно разделить задачи для обучения и тестирования, чтобы один процесс включал задачи, которых не было в ходе другого.

Результаты. Чем больше камер было использовано, тем выше были показатели. Суммарно Cross-Attention, использование нескольких камер и patch tokens повысили показатели на 15%.

Перейдём к заданиям с тонкой настройкой, где последовательность цветов на обучении и тестировании различалась. Результаты для необученных данных ниже, чем для обученных. Также показатели были ниже, когда язык стал более естественным и сложным.

Работа PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation дополняет вышеописанную статью о манипуляции — задачи те же, но отличается форма представления данных. Вместо карты глубины использовали 3D-облако точек, в котором содержатся цвета.

Робот собирал наблюдения с нескольких камер, а карты глубины и RGB-изображения дали облако точек. Когда цвета RGB-изображений проецировали на точки, получили цветное 3D-облако точек.

Архитектура. Архитектура модели — трансформер. На вход подавалось облако точек, которое пропускали через энкодер PointNext. На выходе получали облако точек, которое содержало расположение действия.

Задача. Например, чтобы взять красную кружку, нейросеть предскажет облако точек. Среднее этого облака — нужное положение в пространстве, куда робот должен отправиться, чтобы найти красную кружку.

Результаты. Цвета и наличие нескольких камер улучшили результаты на 19 и 11% соответственно по сравнению с чёрно-белыми облаками точек.

Нужно больше наблюдений из реального мира. Обучение в симуляции приводит к неудачным попыткам воспроизвести действия в реальности.

Робототехника, компьютерное зрение и язык помогают друг другу развиваться.

На очереди создание воплощённого зрения, которое учитывает законы физики. Тогда модели смогут понимать, например, что мост находится впереди и до него нужно сначала добраться по дороге.

Или что человек тянет скатерть, а не пытается сервировать стол.

Поделитесь увиденным

Скопировать ссылку
ТелеграмВКонтакте