Доклад
Москва, 5 декабря, 16:00 (GMT +3)
Будет в трансляции

Визуально-языковые модели для навигации и манипуляции

В последнее время компьютерное зрение достигло больших успехов в классификации, сегментации и текстовом описании изображений. Тем не менее текущие методы всё ещё далеки от понимания визуальных сцен. Что произойдёт, если стакан сдвинуть за границу стола? Какие действия нужны, чтобы посадить дерево? Создание систем, которые смогут отвечать на подобные вопросы по входным изображениям сцен, откроет большие возможности для будущих приложений робототехники и персональных визуальных ассистентов.

Следуя этой мотивации, в данном докладе мы рассмотрим модели и методы обучения для визуальной навигации и манипуляции. В частности, мы сосредоточимся на агентах, выполняющих задачи в соответствии с инструкциями на естественном языке. Обсудим представления и модели, объединяющие разнородные входные данные, такие как язык, многоракурсные наблюдения и история, и продемонстрируем передовые результаты на нескольких современных бенчмарках.

Выступление на английском языке.

Смотреть доклад
Оценить доклад