Скриншот HunyuanVideo / Tencent
Майже рік тому загальну увагу привернув генеративний ШІ Sora від OpenAI, яка створює реалістичні відео. Tencent анонсувала більш відкриту модель HunyuanVideo.
HunyuanVideo — перша велика модель створення відео з відкритим кодом висновку та ваговими коефіцієнтами, доступними для всіх.Tencent стверджує, що модель може створювати відео, порівняні з провідними закритими моделями — з високою якістю зображення, різноманітністю рухів, відповідністю тексту та відео та стабільністю генерації. Маючи понад 13 мільярдів параметрів, це найбільша серед усіх моделей генерації відео з відкритим кодом.
Tencent перевірила модель за допомогою професійної оцінки людьми. Відповідно до оголошених результатів, HunyuanVideo перевершує провідні сучасні моделі з закритим кодом.
Замість того, щоб використовувати окремі моделі генерації тексту, зображень і відео, Tencent використала техніку розділення та поєднання для досягнення кращої якості відео:
«HunyuanVideo представляє дизайн Transformer та використовує механізм Full Attention для уніфікованого створення зображень і відео. Зокрема, ми використовуємо гібридну модель «Два потоки до одного» для створення відео. У фазі подвійного потоку відео та текстові маркери обробляються незалежно через кілька блоків Transformer, що дозволяє кожній модальності вивчати власні відповідні механізми модуляції без перешкод. На етапі єдиного потоку ми об’єднуємо відео та текстові токени та подаємо їх у наступні блоки Transformer для ефективного злиття мультимодальної інформації. Цей дизайн фіксує складні взаємодії між візуальною та семантичною інформацією, підвищуючи загальну продуктивність моделі».
Tencent заявляє, що відкрита публікація коду та «ваги» базової моделі та її додатків зроблена з метою подолати розрив між базовими моделями відео з закритим та відкритим кодом. Ініціатива сприяє доступністю створення якісніших відео на основі штучного інтелекту. На Huggingface можна більше дізнатися про проєкт, офіційний сайт HunyuanVideo містить демонстрації відео, а код доступний на GitHub.
Джерело: NeoWin