Наразі Google зберігає конфіденційність систем, щоб зменшити шкідливі сценарії використання.

Минулого тижня Meta поділилася новою моделлю штучного інтелекту, яка перетворює текстові підказки на короткі, беззвучні відео. Але, як виявилося, Google теж працює над схожим проєктом і нещодавно випустила цілих дві системи перетворення тексту у відео за допомогою ШІ: одна фокусується на якості зображення, а інша призначена для створення довших кліпів.

Excited to announce Imagen Video, our new text-conditioned video diffusion model that generates 1280×768 24fps HD videos! #ImagenVideo https://t.co/JWj3L7MpBU
Work w/ @wchan212 @Chitwan_Saharia @jaywhang_ @RuiqiGao @agritsenko @dpkingma @poolio @mo_norouzi @fleet_dj @TimSalimans pic.twitter.com/eN81LqZW7I

— Jonathan Ho (@hojonathanho) October 5, 2022

Програма перша: Imagen Video

Як випливає з назви, ця модель заснована на методах, відточених у ранній системі перетворення тексту на зображення Google Imagen, але передбачає безліч нових компонентів, які перетворюють статичні кадри на рух.

Як і у випадку з моделлю Meta Make-A-Video, кінцеві результати одночасно неймовірні та тривожні. Найбільш переконливо виглядають прості анімації, наприклад, рослини, що утворюють словосполучення “Imagen Video” або дерев’яна фігурка, що рухається на серфі в космосі. Це тому, що ми не особливо очікуємо, що такі кадри дотримуватимуться суворих правил тимчасової та просторової композиції. Вони можуть поводитися вільно, що відповідає рівню моделі.

Найменш переконливі кліпи – це ті, які повторюють рух реальних людей і тварин, такі як фігура, що розчищає сніг, або кішка, що стрибає на диван. Тут, коли у нас є таке чітке уявлення про те, як повинні рухатися тіла та кінцівки, деформація та якість відзнятого матеріалу більш очевидні. Незважаючи на це, все відео справді вражають, і кожен кліп генерується лише з використанням тексту, який продубльований у підписах до відео:

«Паростки у вигляді тексту «Imagen», що ростуть із книги»

“Дерев’яна фігурка пливе на дошці для серфінгу в космосі”

“Прибирання снігу”

«Британська короткошерста кішка стрибає через диван»

Дослідники Google зазначають, що модель Imagen Video виводить 16 кадрів із частотою 3 FPS та роздільною здатністю 24×48. Цей контент з низьким дозволом потім запускається через різні моделі супер-роздільной здатності ШІ, які збільшують це виведення до 128 кадрів з 24 FPS і роздільною здатністю 1280×768. Якість краща, ніж у результатів моделі Meta Make-A-Video з роздільною здатністю до 768×768.

Майбутня поява генератора відео ШІ несе за собою всілякі проблеми: від расової та гендерної упередженості, вбудованої в ці системи (які навчаються по матеріалам, взятим з Інтернету), до їхнього потенціалу для неправильного використання (тобто створення порнографії, пропаганди та дезінформації).

Дослідники Google у своїй статті згадують про це мимохіть:

“Відеогенератори можуть бути використані для позитивного впливу на суспільство, наприклад, шляхом посилення можливостей для творчості. Однак вони також можуть бути використані не за призначенням, наприклад для створення підробленого або шкідливого контенту”.

Команда зазначає, що вони експериментували з фільтрами, щоб упіймати підказки NSFW і вивести відео, проте не прозвітували про успіх і роблять висновок, що “залишилося кілька важливих проблем безпеки та етики”.

Це не дивно. Imagen Video – це дослідницький проект, і Google пом’якшує свою потенційну шкоду суспільству, просто не публікуючи його (як і Make-A-Video від Meta, який також обмежений.) Але, як і у випадку із системами перетворення тексту на зображення, ці моделі незабаром будуть відтворені та імітовані сторонніми дослідниками, перш ніж будуть поширені як моделі з відкритим вихідним кодом.

Модель друга: Phenaki

В порівнянні з Imagen Video, Phenaki фокусується на створенні більш довгих відео, які дотримуються інструкцій докладної підказки.

Отже, з таким текстом:

“Багато трафіку у футуристичному місті. Інопланетний космічний корабель прибуває до футуристичного міста. Камера потрапляє усередину інопланетного космічного корабля. Камера рухається вперед, доки не показує астронавта у синій кімнаті. Астронавт друкує на клавіатурі. Камера відходить від космонавта. Астронавт кидає клавіатуру та йде. Камера виходить за межі астронавта і дивиться на екран.

На екрані за астронавтом зображені риби, що плавають у морі. Збільшити зображення синьої риби. Ми слідуємо за блакитною рибою, коли вона плаває у темному океані. Камера вказує на небо через воду. Океан та берегова лінія футуристичного міста. Аварійний зум до футуристичного хмарочоса.

Камера наближається до одного з багатьох вікон. Ми знаходимося в офісній кімнаті з порожніми столами. Лев біжить поверх офісних столів. Камера наближається до обличчя лева в офісі. Збільшіть зображення лева у темному костюмі в офісній кімнаті. Одягнений лев дивиться в камеру і посміхається. Камера повільно зменшується до зовнішнього вигляду хмарочоса. Таймлапс заходу сонця в сучасному місті.

Phenaki створює таке відео:

Очевидно, що роздільна здатність відео нижче, ніж у Imagen Video, але стійка серія сцен та налаштувань вражає. (Більше прикладів можна побачити на домашній сторінці проєкту).

У статті, що описує модель, дослідники кажуть, що їх метод може генерувати відео “довільної” довжини, тобто без обмежень. Вони кажуть, що майбутні версії моделі “будуть частиною постійного широкого набору інструментів для художників та інших авторів, надаючи нові та захоплюючі способи вираження творчості”.

Але також звертають увагу на те, що “хоч якість відео, створених Phenaki, відрізняється від реальних відео, отримати цей результат при певному наборі підказок можливо вже зараз. Хоча це може нашкодити, коли Phenaki будуть використовуватися для створення відео з людиною без її згоди та відома” .

Джерело: The Verge