Новости Технологии 07.10.2022 в 08:38 comment views icon

Google разработала две нейросети для генерации видео по текстовому описанию: Imagen Video (для качественных коротких роликов) и Phenaki (для длинных клипов с ограниченным разрешением)

author avatar
https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg

Катерина Даньшина

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

На данный момент Google сохраняет конфиденциальность систем, чтобы уменьшить вредоносные сценарии использования.

На прошлой неделе Meta поделилась новой моделью искусственного интеллекта, которая превращает текстовые подсказки в короткие, беззвучные видео. Но, как оказалось, Google тоже работает над похожим проектом и недавно выпустила целых 2 системы преобразования текста в видео при помощи ИИ: одна фокусируется на качестве изображения, а другая предназначена для создания более длинных клипов.

Программа первая: Imagen Video

Как следует из названия, эта модель основана на методах, отточенных в более ранней системе преобразования текста в изображение Google Imagen, но предусматривает множество новых компонентов, которые превращают статические кадры в движение.

Как и в случае с моделью Meta Make-A-Video, конечные результаты одновременно невероятны и тревожны. Наиболее убедительно выглядят простые анимации, например, растения, образующие словосочетание «Imagen Video» или деревянная фигурка, движущаяся на серфе в космосе. Это потому, что мы не особо ожидаем, что такие кадры будут следовать строгим правилам временной и пространственной композиции. Они могут вести себя свободно, что соответствует уровню модели.

English For Tech: Speaking&Listening.
Після курсу ви зможете найкраще презентувати свої досягнення, обговорювати проекти та вирішувати повсякденні завдання англійською мовою. Отримайте знижку 10% за промокодом TCENG.
Дізнатись про курс

Наименее убедительные клипы — это те, которые повторяют движение реальных людей и животных, такие как фигура, расчищающая снег, или кошка прыгающая на диван. Здесь, когда у нас есть такое четкое представление о том, как должны двигаться тела и конечности, деформация и качество отснятого материала более очевидны. Несмотря на это, все видео действительно впечатляют, и каждый клип генерируется только с использованием текста, который продублирован в подписях к видео:

«Ростки в виде текста «Imagen», растущие из книги»

«Деревянная фигурка плывет на доске для серфинга в космосе»

«Уборка снега»

«Британская короткошерстная кошка прыгает через диван»

English For Tech: Speaking&Listening.
Після курсу ви зможете найкраще презентувати свої досягнення, обговорювати проекти та вирішувати повсякденні завдання англійською мовою. Отримайте знижку 10% за промокодом TCENG.
Дізнатись про курс

Исследователи Google отмечают, что модель Imagen Video выводит 16 кадров с частотой 3 FPS и разрешением 24×48. Этот контент с низким разрешением затем запускается через различные модели суперразрешения ИИ, которые увеличивают этот вывод до 128 кадров с 24 FPS и разрешением 1280×768. Качество лучше, чем у результатов модели Meta Make-A-Video с разрешением до 768×768.

Предстоящее появление генератора видео ИИ несет за собой всевозможные проблемы: от расовой и гендерной предвзятости, встроенной в эти системы (которые обучаются материалам, извлеченным из Интернета), до их потенциала для неправильного использования (т.е. создания порнографии, пропаганды и дезинформации).

Исследователи Google в своей статье упоминают об этом вскользь:

«Видеогенераторы могут быть использованы для положительного воздействия на общество, например, путем усиления возможностей для творчества. Однако они также могут быть использованы не по назначению, например, для создания поддельного или вредоносного контента».

Команда отмечает, что они экспериментировали с фильтрами, чтобы поймать подсказки NSFW и вывести видео, однако не отчитались об их успехе и заключают, что «осталось несколько важных проблем безопасности и этики».

Это неудивительно. Imagen Video — это исследовательский проект, и Google смягчает свой потенциальный вред обществу, просто не публикуя его (как и Make-A-Video от Meta, который также ограничен.) Но, как и в случае с системами преобразования текста в изображения, эти модели вскоре будут воспроизведены и имитированы сторонними исследователями, прежде чем будут распространены как модели с открытым исходным кодом.

Модель вторая: Phenaki

По сравнению с Imagen Video, Phenaki фокусируется на создании более длинных видео, которые следуют инструкциям подробной подсказки.

Итак, с таким текстом:

“Много трафика в футуристическом городе. Инопланетный космический корабль прибывает в футуристический город. Камера попадает внутрь инопланетного космического корабля. Камера движется вперед, пока не показывает астронавта в синей комнате. Астронавт печатает на клавиатуре. Камера отходит от астронавта. Астронавт бросает клавиатуру и уходит. Камера выходит за пределы астронавта и смотрит на экран.

На экране за астронавтом изображены рыбы, плавающие в море. Увеличьте изображение синей рыбы. Мы следуем за голубой рыбой, когда она плавает в темном океане. Камера указывает на небо через воду. Океан и береговая линия футуристического города. Аварийный зум к футуристическому небоскребу.

Камера приближается к одному из многих окон. Мы находимся в офисной комнате с пустыми столами. Лев бежит поверх офисных столов. Камера приближается к лицу льва в офисе. Увеличьте изображение льва в темном костюме в офисной комнате. Одетый лев смотрит в камеру и улыбается. Камера медленно уменьшается до внешнего вида небоскреба. Таймлапс заката в современном городе.

Phenaki создает такое видео:

Google разработала две нейросети для генерации видео по текстовому описанию: Imagen Video (для качественных коротких роликов) и Phenaki (для длинных клипов с ограниченным разрешением)

Очевидно, что разрешение видео ниже, чем у Imagen Video, но устойчивая серия сцен и настроек впечатляет. (Больше примеров можно увидеть на домашней странице проекта).

В статье, описывающей модель, исследователи говорят, что их метод может генерировать видео «произвольной» длины, т.е. без ограничений. Они говорят, что будущие версии модели «будут частью постоянно широкого набора инструментов для художников и других авторов, предоставляя новые и захватывающие способы выражения творчества».

Но также обращают внимание на то, что «хоть качество видео, созданных Phenaki, отличается от реальных видео, получить этот результат при определенном наборе подсказок возможно уже сейчас. Хотя это может навредить, когда Phenaki будут использоваться для создания видео с человеком без его согласия и ведома».

Источник: The Verge

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: