Новини Софт 04.12.2024 о 12:49 comment views icon

Tencent представила свою Sora з відкритим кодом — ШІ-генератор відео HunyuanVideo

author avatar

Андрій Русанов

Автор сайту

Tencent представила свою Sora з відкритим кодом — ШІ-генератор відео HunyuanVideo
Скриншот HunyuanVideo / Tencent
Розділ Технології виходить за підтримки

Майже рік тому загальну увагу привернув генеративний ШІ Sora від OpenAI, яка створює реалістичні відео. Tencent анонсувала більш відкриту модель HunyuanVideo.

HunyuanVideo — перша велика модель створення відео з відкритим кодом висновку та ваговими коефіцієнтами, доступними для всіх.Tencent стверджує, що модель може створювати відео, порівняні з провідними закритими моделями — з високою якістю зображення, різноманітністю рухів, відповідністю тексту та відео та стабільністю генерації. Маючи понад 13 мільярдів параметрів, це найбільша серед усіх моделей генерації відео з відкритим кодом.

Tencent перевірила модель за допомогою професійної оцінки людьми. Відповідно до оголошених результатів, HunyuanVideo перевершує провідні сучасні моделі з закритим кодом.

Ші генератор відео Tencent
Порівняння HunyuanVideo та інших моделей / Tencent

Замість того, щоб використовувати окремі моделі генерації тексту, зображень і відео, Tencent використала техніку розділення та поєднання для досягнення кращої якості відео:

«HunyuanVideo представляє дизайн Transformer та використовує механізм Full Attention для уніфікованого створення зображень і відео. Зокрема, ми використовуємо гібридну модель «Два потоки до одного» для створення відео. У фазі подвійного потоку відео та текстові маркери обробляються незалежно через кілька блоків Transformer, що дозволяє кожній модальності вивчати власні відповідні механізми модуляції без перешкод. На етапі єдиного потоку ми об’єднуємо відео та текстові токени та подаємо їх у наступні блоки Transformer для ефективного злиття мультимодальної інформації. Цей дизайн фіксує складні взаємодії між візуальною та семантичною інформацією, підвищуючи загальну продуктивність моделі».

Tencent заявляє, що відкрита публікація коду та «ваги» базової моделі та її додатків зроблена з метою подолати розрив між базовими моделями відео з закритим та відкритим кодом. Ініціатива сприяє доступністю створення якісніших відео на основі штучного інтелекту. На Huggingface можна більше дізнатися про проєкт, офіційний сайт HunyuanVideo містить демонстрації відео, а код доступний на GitHub.

Tencent показала ШІ GameGen-O для створення ігор — модель навчали на The Witcher 3, GTA V та Cyberpunk 2077

Джерело: NeoWin

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: