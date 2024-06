Etched es uno de los competidores de NVIDIA en el mercado de los procesadores de IA. La startup ofrece un enfoque diferente para su creación, que es similar a la producción de ASIC para minería — especialización en un tipo específico de IA generativa, a saber, los llamados transformadores. Los chips no funcionarán con otros modelos, pero tendrán un rendimiento órdenes de magnitud superior con los específicos. Los procesadores Sohu presentados funcionan con Llama 70B y son capaces de procesar 500 mil tokens por segundo. Un servidor con 8x chips Sohu puede sustituir a 160 procesadores NVIDIA H100.

Según Etched, Sohu es el primer chip especializado para modelos de transformadores. Con un rendimiento muy superior al de cualquier solución de propósito general existente, Sohu no puede ejecutar CNN, LSTM, SSM ni ningún otro modelo de IA. Se fabrica en el proceso de 4 nm de TSMC.

La empresa afirma que, en la actualidad, todos los principales productos de IA del mercado (ChatGPT, Claude, Gemini, Sora) se basan en transformadores y, supuestamente, dentro de unos años, todos los principales modelos de IA se ejecutarán en chips especializados. Etched considera que este proceso es inevitable.

Se afirma que el procesador Sohu es más de 10 veces más rápido y barato que chips NVIDIA Blackwell (B200) de nueva generación. Un único servidor Sohu procesa Llama 70B tokens 20 veces más rápido que un servidor H100 (23.000 tokens/s) y 10 veces más rápido que un servidor B200 (~45.000 tokens/s). Los resultados se obtuvieron en FP8 sin sparsity con un paralelismo de modelo 8x y 2048 datos de entrada/128 datos de salida. Los benchmarks 8xH100 se obtienen a partir de TensorRT-LLM 0.10.08 (última versión), y los benchmarks 8xB200 son estimaciones. «Este es el mismo benchmark utilizado por NVIDIA y AMD», — Etched dice.

Etched critica la arquitectura universal de las GPU y señala que no mejoran, sino que se hacen más grandes. En los últimos cuatro años, su densidad de cálculo (TFLOPS/mm²) sólo ha mejorado en torno a un 15%. La próxima generación de GPU (NVIDIA B200, AMD MI300X, Intel Gaudi 3, AWS Trainium2, etc.) utiliza dos chips en uno para «duplicar» su rendimiento. Según la startup, con la Ley de Moore ralentizándose, la única forma de mejorar el rendimiento es especializarse. ‍

El argumento comercial a favor de los chips especializados se basa en su coste relativamente bajo en comparación con el coste de formación y funcionamiento de la IA. En la actualidad, los modelos de IA emplean más de mil millones de dólares en formarse y decenas de miles de millones en funcionar. A esta escala, una mejora del 1% justificaría entre 50 y 100 millones de dólares para el diseño de un chip interno. Los ASIC son entre 10 y 100 veces más rápidos que las GPU.

«Cuando los mineros [dedicados] de bitcoin entraron en el mercado en 2014, resultó más barato tirar las GPU que usarlas para minar bitcoin. Hay miles de millones de dólares en juego, y lo mismo está ocurriendo con la IA… Gana la arquitectura que se ejecuta más rápido y más barato en el hardware».

Al escalar el rendimiento de los modelos de 1.000 a 100.000 millones de dólares, el riesgo de probar una nueva arquitectura aumenta rápidamente. Etched cree que es mejor dirigir los esfuerzos a mejorar la eficiencia de los transformadores en lugar de limitarse a escalarlos.

«En cuanto Sohu (y otros ASIC) lleguen al mercado, alcanzaremos un punto de no retorno. Los asesinos de Transformers tendrán que correr más rápido en las GPU que Transformers en Sohu. Si eso ocurre, crearemos ASICs para eso también».

Con sólo dos años de vida, Etched fue fundada por Gavin Uberti (OctoML y Xnor.ai) y Chris Chu, graduados en Harvard, quienes, junto con Robert Vahen y Mark Ross, antiguo CTO de Cypress Semiconductor, pretendían crear un chip que hiciera una sola cosa: ejecutar modelos de IA.

No es de extrañar. Muchas startups y gigantes tecnológicos están desarrollando chips que funcionan exclusivamente con modelos de IA, también conocidos como chips de inferencia. Meta tiene MTIA, Amazon tiene Graviton e Inferentia, etc. Pero los chips Etched son únicos en el sentido de que trabajan con un solo tipo de modelo: Transformadores.

«En 2022, predijimos que los transformadores se apoderarían del mundo. Ahora hemos llegado a un punto en la evolución de la inteligencia artificial en el que los chips especializados que pueden rendir mejor que las GPU de propósito general son inevitables — y los responsables de la toma de decisiones tecnológicas del mundo lo saben», afirma Uberti, CEO de Etched.

¿Cómo consigue Sohu el rendimiento mostrado? De varias maneras, pero la más obvia es una canalización simplificada de hardware y software. Como Sohu no trabaja con modelos que no sean transformadores, el equipo de Etched puede eliminar los componentes de hardware que no le son relevantes, y lo mismo ocurre con el software.