Последние несколько лет можно назвать расцветом генеративных моделей, работающих в самых разных модальностях. Доклад будет посвящён одной из самых трудоёмких и сложных задач этого направления — синтезу видео по текстам на естественном языке (
Обсудим теоретические аспекты диффузионного процесса, его преимущества и недостатки. Поговорим о новой архитектуре Kandinsky 3.0, особенностях её обучения, нюансах сбора, фильтрации, хранения данных для обучения и полученных результатах. Разберёмся с задачей генерации видео по текстовому описанию, обсудим как создание различных видов анимации, так и