На данный момент Google сохраняет конфиденциальность систем, чтобы уменьшить вредоносные сценарии использования.

На прошлой неделе Meta поделилась новой моделью искусственного интеллекта, которая превращает текстовые подсказки в короткие, беззвучные видео. Но, как оказалось, Google тоже работает над похожим проектом и недавно выпустила целых 2 системы преобразования текста в видео при помощи ИИ: одна фокусируется на качестве изображения, а другая предназначена для создания более длинных клипов.

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideo https://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

— Jonathan Ho (@hojonathanho) October 5, 2022

Программа первая: Imagen Video

Как следует из названия, эта модель основана на методах, отточенных в более ранней системе преобразования текста в изображение Google Imagen, но предусматривает множество новых компонентов, которые превращают статические кадры в движение.

Как и в случае с моделью Meta Make-A-Video, конечные результаты одновременно невероятны и тревожны. Наиболее убедительно выглядят простые анимации, например, растения, образующие словосочетание «Imagen Video» или деревянная фигурка, движущаяся на серфе в космосе. Это потому, что мы не особо ожидаем, что такие кадры будут следовать строгим правилам временной и пространственной композиции. Они могут вести себя свободно, что соответствует уровню модели.

Наименее убедительные клипы — это те, которые повторяют движение реальных людей и животных, такие как фигура, расчищающая снег, или кошка прыгающая на диван. Здесь, когда у нас есть такое четкое представление о том, как должны двигаться тела и конечности, деформация и качество отснятого материала более очевидны. Несмотря на это, все видео действительно впечатляют, и каждый клип генерируется только с использованием текста, который продублирован в подписях к видео:

«Ростки в виде текста «Imagen», растущие из книги»

«Деревянная фигурка плывет на доске для серфинга в космосе»

«Уборка снега»

«Британская короткошерстная кошка прыгает через диван»

Исследователи Google отмечают, что модель Imagen Video выводит 16 кадров с частотой 3 FPS и разрешением 24×48. Этот контент с низким разрешением затем запускается через различные модели суперразрешения ИИ, которые увеличивают этот вывод до 128 кадров с 24 FPS и разрешением 1280×768. Качество лучше, чем у результатов модели Meta Make-A-Video с разрешением до 768×768.

Предстоящее появление генератора видео ИИ несет за собой всевозможные проблемы: от расовой и гендерной предвзятости, встроенной в эти системы (которые обучаются материалам, извлеченным из Интернета), до их потенциала для неправильного использования (т.е. создания порнографии, пропаганды и дезинформации).

Исследователи Google в своей статье упоминают об этом вскользь:

«Видеогенераторы могут быть использованы для положительного воздействия на общество, например, путем усиления возможностей для творчества. Однако они также могут быть использованы не по назначению, например, для создания поддельного или вредоносного контента».

Команда отмечает, что они экспериментировали с фильтрами, чтобы поймать подсказки NSFW и вывести видео, однако не отчитались об их успехе и заключают, что «осталось несколько важных проблем безопасности и этики».

Это неудивительно. Imagen Video — это исследовательский проект, и Google смягчает свой потенциальный вред обществу, просто не публикуя его (как и Make-A-Video от Meta, который также ограничен.) Но, как и в случае с системами преобразования текста в изображения, эти модели вскоре будут воспроизведены и имитированы сторонними исследователями, прежде чем будут распространены как модели с открытым исходным кодом.

Модель вторая: Phenaki

По сравнению с Imagen Video, Phenaki фокусируется на создании более длинных видео, которые следуют инструкциям подробной подсказки.

Итак, с таким текстом:

“Много трафика в футуристическом городе. Инопланетный космический корабль прибывает в футуристический город. Камера попадает внутрь инопланетного космического корабля. Камера движется вперед, пока не показывает астронавта в синей комнате. Астронавт печатает на клавиатуре. Камера отходит от астронавта. Астронавт бросает клавиатуру и уходит. Камера выходит за пределы астронавта и смотрит на экран.

На экране за астронавтом изображены рыбы, плавающие в море. Увеличьте изображение синей рыбы. Мы следуем за голубой рыбой, когда она плавает в темном океане. Камера указывает на небо через воду. Океан и береговая линия футуристического города. Аварийный зум к футуристическому небоскребу.

Камера приближается к одному из многих окон. Мы находимся в офисной комнате с пустыми столами. Лев бежит поверх офисных столов. Камера приближается к лицу льва в офисе. Увеличьте изображение льва в темном костюме в офисной комнате. Одетый лев смотрит в камеру и улыбается. Камера медленно уменьшается до внешнего вида небоскреба. Таймлапс заката в современном городе.

Phenaki создает такое видео:

Очевидно, что разрешение видео ниже, чем у Imagen Video, но устойчивая серия сцен и настроек впечатляет. (Больше примеров можно увидеть на домашней странице проекта).

В статье, описывающей модель, исследователи говорят, что их метод может генерировать видео «произвольной» длины, т.е. без ограничений. Они говорят, что будущие версии модели «будут частью постоянно широкого набора инструментов для художников и других авторов, предоставляя новые и захватывающие способы выражения творчества».

Но также обращают внимание на то, что «хоть качество видео, созданных Phenaki, отличается от реальных видео, получить этот результат при определенном наборе подсказок возможно уже сейчас. Хотя это может навредить, когда Phenaki будут использоваться для создания видео с человеком без его согласия и ведома».

Источник: The Verge

Программа первая: Imagen Video

Модель вторая: Phenaki

Популярные новости