Доклад
Белград, 5 декабря, 16:00 (GMT +1)

Диффузионные методы генерации видео по тексту

Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу видео по текстам на естественном языке (text-to-video), а также подходам к решению этой задачи на основе диффузии.

Обсудим теоретические аспекты диффузионного процесса, его преимущества и недостатки. Поговорим о новой архитектуре Kandinsky 3.0, особенностях её обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. Разберёмся с задачей генерации видео по текстовому описанию, обсудим как создание различных видов анимации, так и end-to-end генерацию полноценных видеороликов по тексту. Затронем основные трудности обучения и сложности оценивания качества генеративных моделей. Поговорим также и о новой модели генерации видео Kandinsky Video. В заключение обсудим применение text-to-video моделей и их потенциал в будущем.

Смотреть доклад
Оценить доклад