Скриншот HunyuanVideo / Tencent
Почти год назад общее внимание привлек генеративный ИИ Sora от OpenAI, который создает реалистичные видео. Tencent анонсировала более открытую модель HunyuanVideo.
HunyuanVideo — первая крупная модель создания видео с открытым кодом вывода и весовыми коэффициентами, доступными для всех. Tencent утверждает, что модель может создавать видео, сопоставимые с ведущими закрытыми моделями — с высоким качеством изображения, разнообразием движений, соответствием текста и видео и стабильностью генерации. Имея более 13 миллиардов параметров, это самая большая среди всех моделей генерации видео с открытым кодом.
Tencent проверила модель с помощью профессиональной оценки людьми. Согласно объявленным результатам, HunyuanVideo превосходит ведущие современные модели с закрытым кодом.
Вместо того чтобы использовать отдельные модели генерации текста, изображений и видео, Tencent использовала технику разделения и объединения для достижения лучшего качества видео:
«HunyuanVideo представляет дизайн Transformer и использует механизм Full Attention для унифицированного создания изображений и видео. В частности, мы используем гибридную модель «Два потока к одному» для создания видео. На фазе двойного потока видео и текстовые маркеры обрабатываются независимо через несколько блоков Transformer, что позволяет каждой модальности изучать собственные соответствующие механизмы модуляции без помех. На этапе единого потока мы объединяем видео и текстовые токены и подаем их в следующие блоки Transformer для эффективного слияния мультимодальной информации. Этот дизайн фиксирует сложные взаимодействия между визуальной и семантической информацией, повышая общую производительность модели».
Tencent заявляет, что открытая публикация кода и «весов» базовой модели и ее приложений сделана с целью преодолеть разрыв между базовыми моделями видео с закрытым и открытым кодом. Инициатива способствует доступности создания качественных видео на основе искусственного интеллекта. На Huggingface можно больше узнать о проекте, официальный сайт HunyuanVideo содержит демонстрации видео, а код доступен на GitHub.
Источник: NeoWin