«100% culpa de NVIDIA»: Jensen Huang admite el error de diseño de Blackwell y TSMC ayuda a solucionarlo

Publicado por Andrii Rusanov

Se ha corregido un fallo de diseño en la GPU Blackwell de NVIDIA que provocó un retraso en la entrega de chips de IA. Los B100/B200 mejorados están a punto de entrar en producción en masa.

Jensen Huang, CEO de NVIDIA, reconoció que el fallo era enteramente culpa de NVIDIA, desmintió la rumoreada culpa de TSMC y subrayó que el fabricante taiwanés ayudó a solucionarlo a tiempo.

«Tuvimos un fallo de diseño en el Blackwell, era funcional, pero el fallo de diseño causó el bajo rendimiento. Fue 100% culpa de NVIDIA».

Cuando aparecieron los primeros informes sobre el fallo de diseño, algunos medios de comunicación señalaron a TSMC como culpable y sugirieron que podría provocar tensiones entre NVIDIA y su socio. Según Huang, no es así y el problema se debió a un error de cálculo de la propia NVIDIA. Rechazó los informes de tensión entre las dos compañías como «fake news» noticias falsas.

«Para que el ordenador Blackwell funcionara, se desarrollaron desde cero siete tipos diferentes de chips que tuvieron que ponerse en producción simultáneamente.
….
Lo que hizo TSMC fue ayudarnos a solucionar ese problema de rendimiento [de los chips de trabajo] y conseguir que la producción de Blackwell volviera a funcionar a un ritmo increíble.

Procesadores gráficos NVIDIA Blackwell B100 y B200 conectar los dos chips mediante la tecnología de empaquetado CoWoS-L de TSMC, que se basa en un intercalador RDL con puentes de silicio locales (LSI). La colocación de estos puentes es fundamental. Sin embargo, un desajuste percibido en las propiedades de expansión térmica entre los chips de la GPU, los puentes LSI, el intercalador RDL y el sustrato provocó la deformación y el fallo del sistema. NVIDIA se vio obligada a modificar las capas metálicas superiores y las protuberancias de silicio de la GPU para mejorar el rendimiento.

Por lo general, se necesitan unas 10 modificaciones para resolver este tipo de problemas, cada una de las cuales lleva unos tres meses. Por tanto, resulta impresionante ver la velocidad a la que NVIDIA y TSMC GPU Blackwell parcheadas. Las GPU Blackwell parcheadas para inteligencia artificial y superordenadores empezarán a fabricarse en serie a finales de octubre y las entregas comenzarán a principios del próximo año.

Sin embargo, a principios de este año, NVIDIA advirtió de que, para satisfacer la demanda de sus GPU Blackwell entre los principales proveedores de servicios en la nube, como AWS, Google y Microsoft, todavía tendrá que enviar algunos procesadores iniciales de gama baja en 2024.

Fuentes: Reuters, Tom’s Hardware