ШІ Voyager від Tencent перетворює єдине фото на досліджуваний 3D-світ — Скріншот/YouTube

У вівторок, 2 вересня, Tencent представила нову модель ШІ HunyuanWorld-Voyager, здатну створювати послідовні 3D-відео з одного зображення.

При цьому користувачі можуть керувати камерою для дослідження згенерованих світів. Модель одночасно генерує RGB-відео та інформацію щодо глибини, що дозволяє безпосередньо змінювати деталі без необхідності використання традиційних інструментів моделювання.

Однак не варто очікувати, що найближчим часом HunyuanWorld-Voyager стане повноцінною альтернативою традиційним відеоіграм. Згенеровані результати не є справжніми 3D-моделями, однак досягають аналогічного ефекту.

Зокрема, ШІ генерує відеокадри у 2D, які зберігають просторову узгодженість, так, ніби камера реально переміщувалась у тривимірному просторі. Кожна генерація створює 49 кадрів тривалістю близько 2 сек.

Представники Tencent зазначають, що кілька відеороликів можна послідовно об’єднувати між собою загальною тривалістю у кілька хвилин. Об’єкти залишаються в тому ж відносному положенні при русі камери навколо них, а перспектива коректно змінюється, як і очікувалося в реальному тривимірному середовищі.

Кінцевий результат являє собою відео з картами глибини, а не справжні 3D-моделі, однак їх можна перетворити на тривимірні хмари точок для реконструкції. На вході система приймає від користувача одне зображення та задану траєкторію руху камери.

Користувачі можуть обирати, як саме рухатиметься камера, вперед-назад, вліво-вправо, або обертання за рахунок інтерфейсу. HunyuanWorld-Voyager об’єднує дані зображення та глибини з “глобальним кешем” для створення послідовних відеороликів, які відібражають обраний користувачем рух камери.

Ключовим обмеженням всіх моделей ШІ на архітектурі Transformer є фактично імітація закономірностей, виявлених у навчальних наборах даних, що обмежує їх здатність до використання цих закономірностей у нових умовах, яких не було у навчальному наборі.

Для навчання HunyuanWorld-Voyager розробники використали понад 100 тис. відеокліпів, включно зі сценами, згенерованими на базі Unreal Engine. Таким чином модель навчалась імітувати рух камери у тривимірному ігровому середовищі.

Більшість відеогенераторів на основі ШІ, такі як Sora, послідовно створюють кадри, не відслідковуючи і не підтримуючи просторову узгодженість. Між тим HunyuanWorld-Voyager навчений розпізнавати та відтворювати шаблони просторової узгодженності, однак з додаванням геометричного зворотного зв’язку.

Генеруючи кожен кадр, система перетворює вихідні дані у тривимірні точки, а потім проєктує ці точки знов у двовимірні для використання у майбутніх кадрах. Такий метод змушує модель співставляти вивчені шаблони із геометрично узгодженими проєкціями її власних попередніх вихідних даних. І хоча це забезпечує значно кращу просторову узгодженість, порівняно із традиційними відеогенераторами, це все ще співставлення шаблонів, що базується на геометричних обмеженнях, а не на реальному моделюванні у тривимірному середовищі.

У зв’язку з цим стає зрозуміло, чому модель здатна зберігати узгодженність упродовж кількох хвилин, однак стикається із труднощами у разі повного обертання камери на 360°. Кадр за кадром накопичуються незначні помилки у результаті співставлення шаблонів, аж до поки геометричні обмеження не припиняють підтримувати просторову узгодженність.

У технічному звіті Tencent зазначається, що система використовує дві ключові частини, що працюють разом. HunyuanWorld-Voyager одночасно генерує кольорове відео та інформацію відносно глибини. Тобто, якщо на відео присутнє, наприклад, дерево, дані щодо глибини точно визначають, наскільки далеко знаходиться це дерево. По-друге, ця модель використовує те, що у Tencent називають “глобальним кешем” — зростаюча колекція тривимірних точок, створених з кадрів, згенерованих до цього.

Під час генерації нових кадрів ця хмара точок проєктується назад у 2D з нового ракурсу камери для створення часткових зображень, що показують те, що має бути видно на основі попередніх кадрів. Далі HunyuanWorld-Voyager використовує ці кадри для перевірки просторової узгодженності та забезпечення відповідності нових кадрів, тим що були згенеровані раніше.

HunyuanWorld-Voyager доповнює колекцію відеогенераторів на основі ШІ, до яких також входить анонсований Google у серпні цього року Genie 3. Ця модель, як зазначається, генерує інтерактивні світи з роздільною здатністю 720p та частотою 24 кадри на сек з допомогою текстових підказок.

У той же час Mirage 2 від Dynamics Lab пропонує генерацію світів у браузері, дозволяючи користувачам завантажувати зображення та перетворювати їх на ігрові середовища за допомогою текстових підказок у реальному часі. Між тим HunyuanWorld-Voyager більш спрямований переважно на процеси відеовиробництва та 3D-реконструкції з можливістю виведення глибини RGB.

HunyuanWorld-Voyager є вдосконаленим варіантом більш ранньої версії HunyuanWorld 1.0, представленої у липні цього року. Він також входить до більш широкої системи Tencent “Hunyuan”, що включає в себе модель Hunyuan3D-2 для генерації тривимірних моделей на основі тексту, а також HunyuanVideo для генерації відео.

Для навчання HunyuanWorld-Voyager розробники створили програмне забезпечення, яке автоматично аналізує існуючі відео, обробляє рухи камери, розраховує глибину для кожного кадру. Система обробила понад 100 тис. відеокліпів із реальних записів та рендерів Unreal Engine.

Для роботи з цією моделлю необхідна значна обчислювальна потужність: щонайменше 60 ГБ VRAM із роздільною здатністю 540p. При цьому у Tencent рекомендують 80 ГБ VRAM для отримання оптимальних результатів. Tencent опублікувала вагові коефіцієнти моделі на Hugging Face та включила код, що працює як з одним, так і з кількома відеокартами.

Однак ця модель має суттєві ліцензійні обмеження. Разом з іншими моделями Hunyuan, World-Voyager недоступна для користувачів з країн ЄС, Великої Британії та Південної Кореї. Крім того, для комерційного використання з більш ніж 100 млн активних користувачів на місяць потрібне окреме ліцензування Tencent.

Згідно із бенчмарком WorldScore, який був розроблений дослідниками зі Стенфорду, Voyager набрав найвищий загальний бал — 77,62, у той час як WonderWorld — 72,69, а CogVideoX-I2V — 62,15. Модель досягла успіху в керуванні об’єктами (66,92), узгодженості стилю (84,89) та суб’єктивній якості (71,09), хоча й посіла друге місце з управління камерою (85,95), поступившись WonderWorld з результатом 92,98.

Хоча ці результати бенчмарків, про які повідомляють самі розробники, виглядають багатообіцяючими, ширше використання все ще стикається з труднощами через високу обчислювальну потужність. Для розробників, яким потрібна швидша обробка даних, система підтримує паралельне виведення на кількох графічних процесорах за допомогою фреймворку xDiT.

Джерело: ArsTechnica