Рубрики NoticiasSuaveTecnologías

Tencent desvela su generador de vídeo de IA de código abierto Sora — HunyuanVideo

Publicado por Andrii Rusanov

Hace casi un año, el IA generativo Sora de OpenAI, que crea videos realistas, capturó la atención general. Tencent anunció un modelo más abierto, HunyuanVideo.

HunyuanVideo es el primer gran modelo de generación de videos de código abierto con pesos y códigos disponibles para todos. Tencent afirma que el modelo puede crear videos comparables a los principales modelos cerrados, con alta calidad de imagen, variedad de movimientos, correspondencia entre texto y video y estabilidad en la generación. Con más de 13 mil millones de parámetros, es el mayor entre todos los modelos generativos de video de código abierto.

Tencent evaluó el modelo mediante una evaluación profesional por humanos. Según los resultados anunciados, HunyuanVideo supera a los principales modelos modernos de código cerrado.

Comparación de HunyuanVideo con otros modelos / Tencent

En lugar de usar modelos separados para generación de texto, imágenes y videos, Tencent utilizó una técnica de división y combinación para lograr una mejor calidad de video:

«HunyuanVideo presenta un diseño Transformer y utiliza el mecanismo Full Attention para la creación unificada de imágenes y videos. En particular, usamos un modelo híbrido ‘Dos flujos a uno’ para la creación de videos. En la fase de doble flujo, los marcadores de video y texto se procesan de manera independiente a través de varios bloques Transformer, permitiendo que cada modalidad aprenda sus propios mecanismos de modulación sin interferencias. En la etapa de flujo único, combinamos los tokens de video y texto y los pasamos a los siguientes bloques Transformer para una fusión eficiente de la información multimodal. Este diseño captura las interacciones complejas entre la información visual y semántica, mejorando el rendimiento general del modelo».

Tencent declara que la publicación abierta del código y los ‘pesos’ del modelo base y sus aplicaciones se hizo con el objetivo de cerrar la brecha entre los modelos de video de código cerrado y abierto. La iniciativa fomenta la accesibilidad a la creación de videos de mayor calidad basados en inteligencia artificial. En Huggingface puedes aprender más sobre el proyecto, el sitio oficial HunyuanVideo contiene demostraciones de video, y el código está disponible en GitHub.

Fuente: NeoWin