«Сбер» представил новую нейросеть Kandinsky Video, способную создавать короткие видеоролики по текстовому описанию. На конференции AI Journey первым заместителем председателя правления банка, Александром Ведяхиным, была представлена инновационная модель.
Структура Kandinsky Video состоит из двух основных блоков. Первый блок формирует ключевые кадры, необходимые для создания общего сюжета видео, в то время как второй блок генерирует интерполяционные кадры, обеспечивая плавное перемещение в финальном ролике. Оба блока основаны на модели синтеза изображений по текстовым описаниям Kandinsky 3.0.
Новая нейросеть способна создавать видео, где движение происходит как у объекта, так и у фона. Это отличает сгенерированные видеоролики от анимационных, где динамика достигается перемещением камеры относительно статичной сцены. На данный момент Kandinsky Video может генерировать видео разрешением 512 × 512 пикселей с различными пропорциями сторон. В процессе обучения модели использовался набор данных, содержащий более 300 тысяч пар «текст — видео». Время создания видеоролика составляет до 3 минут.
Ранее пользователи Kandinsky 2.2 в тестовом режиме имели доступ к функции создания анимационных роликов. Один запрос позволял генерировать видео длиной до 4 секунд с выбранными анимационными эффектами, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут создавать анимационные видеоролики на основе текстового описания.