Рубрики НовостиИИ

ИИ Voyager от Tencent превращает единственное фото в исследуемый 3D-мир

Опубликовал Олександр Федоткін

Во вторник, 2 сентября, Tencent представила новую модель ИИ HunyuanWorld-Voyager, способную создавать последовательные 3D-видео из одного изображения.

При этом пользователи могут управлять камерой для исследования сгенерированных миров. Модель одновременно генерирует RGB-видео и информацию о глубине, что позволяет напрямую изменять детали без необходимости использования традиционных инструментов моделирования.

Однако не стоит ожидать, что в ближайшее время HunyuanWorld-Voyager станет полноценной альтернативой традиционным видеоиграм. Сгенерированные результаты не являются настоящими 3D-моделями, однако достигают аналогичного эффекта.

В частности, ИИ генерирует видеокадры в 2D, которые сохраняют пространственную согласованность, так, будто камера реально перемещалась в трехмерном пространстве. Каждая генерация создает 49 кадров продолжительностью около 2 сек.

Представители Tencent отмечают, что несколько видеороликов можно последовательно объединять между собой общей продолжительностью в несколько минут. Объекты остаются в том же относительном положении при движении камеры вокруг них, а перспектива корректно меняется, как и ожидалось в реальной трехмерной среде. 

Конечный результат представляет собой видео с картами глубины, а не настоящие 3D-модели, однако их можно преобразовать в трехмерные облака точек для реконструкции. На входе система принимает от пользователя одно изображение и заданную траекторию движения камеры. 

Пользователи могут выбирать, как именно будет двигаться камера, вперед-назад, влево-вправо, или вращение за счет интерфейса. HunyuanWorld-Voyager объединяет данные изображения и глубины с «глобальным кэшем» для создания последовательных видеороликов, которые отображают выбранное пользователем движение камеры.

Ключевым ограничением всех моделей ИИ на архитектуре Transformer является фактически имитация закономерностей, выявленных в учебных наборах данных, что ограничивает их способность к использованию этих закономерностей в новых условиях, которых не было в учебном наборе данных. 

Для обучения HunyuanWorld-Voyager разработчики использовали более 100 тыс. видеоклипов, включая сцены, сгенерированные на базе Unreal Engine. Таким образом модель училась имитировать движение камеры в трехмерной игровой среде. 

Большинство видеогенераторов на основе ИИ, такие как Sora, последовательно создают кадры, не отслеживая и не поддерживая пространственную согласованность. Между тем HunyuanWorld-Voyager обучен распознавать и воспроизводить шаблоны пространственной согласованности, однако с добавлением геометрической обратной связи. 

Генерируя каждый кадр, система преобразует исходные данные в трехмерные точки, а затем проецирует эти точки снова в двумерные для использования в будущих кадрах. Такой метод заставляет модель сопоставлять изученные шаблоны с геометрически согласованными проекциями ее собственных предварительных исходных данных. И хотя это обеспечивает значительно лучшую пространственную согласованность, по сравнению с традиционными видеогенераторами, это все еще сопоставление шаблонов, основанное на геометрических ограничениях, а не на реальном моделировании в трехмерной среде. 

В связи с этим становится понятно, почему модель способна сохранять согласованность в течение нескольких минут, однако сталкивается с трудностями в случае полного вращения камеры на 360°. Кадр за кадром накапливаются незначительные ошибки в результате сопоставления шаблонов, пока геометрические ограничения не перестают поддерживать пространственную согласованность.

Процесс создания мира в HunyuanWorld-Voyager/Tencent

В техническом отчете Tencent отмечается, что система использует две ключевые части, работающие вместе. HunyuanWorld-Voyager одновременно генерирует цветное видео и информацию относительно глубины. То есть, если на видео присутствует, например, дерево, данные о глубине точно определяют, насколько далеко находится это дерево. Во-вторых, эта модель использует то, что в Tencent называют «глобальным кэшем» — растущая коллекция трехмерных точек, созданных из кадров, сгенерированных до этого. 

Во время генерации новых кадров это облако точек проецируется обратно в 2D с нового ракурса камеры для создания частичных изображений, показывающих то, что должно быть видно на основе предыдущих кадров. Далее HunyuanWorld-Voyager использует эти кадры для проверки пространственной согласованности и обеспечения соответствия новых кадров тем, что были сгенерированы ранее.

HunyuanWorld-Voyager дополняет коллекцию видеогенераторов на основе ИИ, в которые также входит анонсированный Google в августе этого года Genie 3. Эта модель, как отмечается, генерирует интерактивные миры с разрешением 720p и частотой 24 кадра в сек с помощью текстовых подсказок. 

В то же время Mirage 2 от Dynamics Lab предлагает генерацию миров в браузере, позволяя пользователям загружать изображения и превращать их в игровые среды с помощью текстовых подсказок в реальном времени. Между тем HunyuanWorld-Voyager направлен преимущественно на процессы видеопроизводства и 3D-реконструкции с возможностью вывода глубины RGB. 

HunyuanWorld-Voyager является усовершенствованным вариантом более ранней версии HunyuanWorld 1.0, представленной в июле этого года. Он также входит в более широкую систему Tencent «Hunyuan», включающую в себя модель Hunyuan3D-2 для генерации трехмерных моделей на основе текста, а также HunyuanVideo для генерации видео. 

Для обучения HunyuanWorld-Voyager разработчики создали программное обеспечение, которое автоматически анализирует существующие видео, обрабатывает движения камеры, рассчитывает глубину для каждого кадра. Система обработала более 100 тыс. видеоклипов из реальных записей и рендеров Unreal Engine.

Для работы с этой моделью необходима значительная вычислительная мощность: не менее 60 ГБ VRAM с разрешением 540p. При этом в Tencent рекомендуют 80 ГБ VRAM для получения оптимальных результатов. Tencent опубликовала весовые коэффициенты модели на Hugging Face и включила код, работающий как с одной, так и с несколькими видеокартами.

Однако эта модель имеет существенные лицензионные ограничения. Вместе с другими моделями Hunyuan, World-Voyager недоступна для пользователей из стран ЕС, Великобритании и Южной Кореи. Кроме того, для коммерческого использования с более чем 100 млн активных пользователей в месяц требуется отдельное лицензирование Tencent.

Согласно бенчмарку  WorldScore, разработанному исследователями из Стэнфорда, Voyager набрал самый высокий общий балл — 77,62, в то время как WonderWorld — 72,69, а CogVideoX-I2V — 62,15. Модель преуспела в управлении объектами (66,92), согласованности стиля (84,89) и субъективном качестве (71,09), хотя и заняла второе место по управлению камерой (85,95), уступив WonderWorld с результатом 92,98.

Хотя эти результаты бенчмарков, о которых сообщают сами разработчики, выглядят многообещающими, более широкое использование все еще сталкивается с трудностями из-за высокой вычислительной мощности. Для разработчиков, которым требуется более быстрая обработка данных, система поддерживает параллельный вывод на нескольких графических процессорах с помощью фреймворка xDiT. 

Источник: ArsTechnica

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.