Nvidia представила нейросеть, которая создает видео из текста

20.04.2023, 08:39

Американская компания Nvidia на конференции IEEE по компьютерному зрению и распознаванию образов представила новую версию нейросети, генерирующей видео по текстовому описанию. Видео создается в разрешении либо 512x1024, либо 1280x2048 и состоит из 113 кадров длиной около пяти секунд. Нейросеть учитывает около 4,1 млрд параметров, из которых 2,7 млрд обучаются на видео.

Nvidia представила нейросеть, которая создает видео из текста

Как заявляют разработчики, обучение идет очень быстро даже по сравнению с предыдущим месяцем.

За основу разработчики взяли нейросеть Stable Diffusion, но доработали алгоритм для получения видео в высоком качестве. Среди примеров, которые показала Nvidia, были картинки по запросам «снежный человек в снежную бурю», «одетая в костюм лиса, танцующая в парке», «одинокий путешественник в туманном лесу на рассвете» и другие. Ранее Nvidia добавила функцию масштабирования изображения видео в браузерах.

По материалам «Коммерсантъ».