Depositphotos
China puede haber encontrado una forma de eludir las restricciones al suministro de potentes chips de IA. La tecnología DeepSeek FlashMLA multiplica los TFLOPS de la NVIDIA Hopper H800.
En «OpenSource Week», que DeepSeek El 24 de febrero, la compañía presentó el «kernel de descodificación» (decoding kernel) FlashMLA. Se trata de una tecnología de software para optimizar el rendimiento de los procesadores NVIDIA Hopper.
Según DeepSeek, el rendimiento del H800 con esta tecnología es de 580 TFLOPS para la multiplicación de matrices BF16, lo que supone unas ocho veces la capacidad estándar. Además, gracias al uso eficiente de la memoria, FlashMLA proporciona hasta 3000 GB/s de rendimiento de memoria, lo que supone casi el doble del máximo del H800. Increíblemente, esto se consigue sólo con código, sin ninguna mejora de hardware.
This is crazy.
-> Blazing fast: 580 TFLOPS on H800, ~8x industry avg (73.5 TFLOPS).
-> Memory wizardry: Hits 3000 GB/s, surpassing H800’s 1681 GB/s peak.— Visionary x AI (@VisionaryxAI) February 24, 2025
FlashMLA de DeepSeek implementa «compresión clave-valor de bajo rango» (compresión clave-valor de bajo rango) — en otras palabras, rompe fragmentos de datos en partes más pequeñas para un procesamiento más rápido. También reduce el consumo de memoria entre un 40% y un 60%. La tecnología utiliza un sistema de paginación «basado en bloques» que asigna memoria dinámicamente en función de la intensidad de la tarea, en lugar de valores de asignación fijos. Esto ayuda a los modelos a manejar secuencias de longitud variable de forma mucho más eficiente y a ejecutarse más rápido.
La nueva tecnología DeepSeek demuestra el potencial del software en la computación de IA y cómo puede mejorar el rendimiento aceleradores caros y que consumen mucha energía. De momento, FlashMLA sólo está disponible para H800, pero sería interesante verlo funcionar en procesadores H100.
Recientemente se está trabajando activamente en China sobre optimización informática. Recientemente, científicos de la Universidad de Shenzhen y del Instituto de Tecnología de Pekín mejoró 800 veces el rendimiento de una NVIDIA RTX 4070 normal en las tareas de la peridinámica. Desgraciadamente, el resultado se consiguió junto con los rusos, y sus consecuencias acelerarán y mejorarán los cálculos militares-industriales.
Fuente: Wccftech