Intel desvela la arquitectura Lunar Lake — con +18% de rendimiento, gráficos Xe2 +50x más rápidos y sin Hyperthreading en el núcleo P

Опубликовал
Андрій Русанов

Intel ha revelado detalles de la arquitectura de los procesadores Lunar Lake durante la presentación Intel Tech Tour 2024 previa a la keynote de la compañía en Computex 2024. Los nuevos procesadores presentarán mejoras significativas en todos los aspectos del diseño. Los procesadores Lunar Lake están diseñados principalmente para portátiles, aunque muchos de los cambios fundamentales podrían trasladarse a los chips Arrow Lake para ordenadores de sobremesa.

Cada componente de la arquitectura Lunar Lake se ha optimizado para equilibrar potencia y rendimiento. Los núcleos de bajo consumo (núcleos E) son los que más han mejorado, con un 38% más de IPC (instrucciones por ciclo de reloj) y un 68% más en los nuevos núcleos Skymont. El IPC también ha aumentado un 14% en los núcleos Lion Cove P. Con los nuevos gráficos integrados Xe2, el rendimiento del chip de vídeo integrado aumentará un 50%.

Lunar Lake incorpora el nuevo procesador neural de IA de Intel con un rendimiento de 48 TOPS. De hecho, la plataforma Lunar Lake tiene aún más rendimiento de IA — ofrece 120 TOPS en total, incluidos los núcleos de computación y las iGPU.

Los procesadores Lunar Lake para portátiles se han diseñado con una nueva metodología centrada en la eficiencia energética como máxima prioridad. Esta arquitectura básica se utilizará en futuros productos Intel como Arrow Lake y Panther Lake.

Intel ha recurrido a su rival TSMC para su avanzado proceso N3B de 3 nm para núcleos de computación, gráficos integrados y NPU. El proceso N6 de TSMC se utiliza para el controlador, que contiene interfaces de E/S externas. El único elemento fabricado por Intel es la placa base pasiva 22FFL Foveros. Intel afirma que eligió TSMC por la mejor tecnología de proceso disponible. No obstante, la empresa ha diseñado la arquitectura para que sea fácilmente transportable a otros procesos.

Estructura del SoC Lunar Lake

Los procesadores Lunar Lake de Intel tendrán 4 núcleos P y 4 núcleos E. El chip consta de dos baldosas lógicas: una baldosa de cómputo (TSMC N3B) y una baldosa de controlador de plataforma (N6), así como un rigidizador (no funcional) colocado sobre una baldosa base Foveros 22FFL. Intel ha colocado dos pilas de memoria LPDDR5X-8500 directamente en el cuerpo del chip en configuraciones de 16 GB o 32 GB. La memoria intercambia datos a través de cuatro canales de 16 bits y proporciona hasta 8,5 GT/s de ancho de banda por chip.

El mosaico informático contiene núcleos principales, chips Xe2 y NPU 4.0. También incorpora una nueva caché lateral «8 MB que comparten todas las unidades de cálculo para aumentar la velocidad de acceso y reducir el movimiento de datos. Técnicamente, no cumple la definición de caché L4, ya que es compartida por todos los elementos.

La eliminación del subsistema de alimentación del chip también contribuyó al ahorro de energía. En general, Intel afirma una reducción del consumo del 40% en comparación con Meteor Lake.

Núcleos productivos

Los núcleos Lunar Lake P proporcionan un aumento medio del IPC del 14%, lo que incrementa el rendimiento. Sin embargo, Intel ha dado un paso inesperado en la optimización de los núcleos — ha eliminado Hyperthreading y todos los bloques lógicos que proporcionaban esta función. Los arquitectos de Intel llegaron a la conclusión de que Hyperthreading, que aumenta el IPC en un ~30% en cargas de trabajo multihilo, no es tan apropiado en un diseño híbrido que utiliza núcleos E más eficientes energéticamente para cargas de trabajo multihilo. Intel afirma que el rendimiento general mejora entre un 10 % y un 18 % con respecto a Meteor Lake, en función de la potencia de funcionamiento del chip.

La eliminación de Hyperthreading hace que el núcleo sea más pequeño, ofrece una mejora de la eficiencia del 15%, una mejora del rendimiento del 10% por área y una mejora del rendimiento del 30% por potencia por área. Esto es mucho más eficiente que simplemente desactivar Hyperthreading y dejar la circuitería. El nuevo enfoque también preserva área para otras adiciones — puedes añadir más núcleos E-core o GPU.

Intel no rechaza por completo el Hyperthreading — sigue viendo valor en los diseños de solo núcleo P. Por ello, Intel ha desarrollado dos versiones del núcleo Lion Cove, una con hyperthreading y otra sin él, para que el núcleo streaming pueda utilizarse en otros diseños, como el próximo Xeon 6.

Las velocidades de reloj de Intel antes sólo se podían ajustar en incrementos de 100 MHz), pero ahora se pueden ajustar en rangos de 16,67 MHz para ofrecer una gestión más precisa de la frecuencia y la energía. Intel lo atribuye a un aumento de un pequeño porcentaje en la eficiencia energética o el rendimiento en algunos escenarios.

Intel ha multiplicado por 8 la unidad de predicción en comparación con la arquitectura anterior, manteniendo la precisión. También ha triplicado el ancho de banda de solicitud de la caché de instrucciones a L2 y duplicado el ancho de banda de obtención de instrucciones, de 64 a 128 bytes por segundo. El rendimiento de descodificación se ha incrementado de 6 a 8 instrucciones por ciclo, y la caché de microoperaciones ha aumentado junto con el rendimiento de lectura. La cola de microoperaciones también se incrementó de 144 a 192.

El subsistema de memoria tiene un nuevo nivel de caché L0. Los arquitectos rediseñaron por completo la caché de datos para añadir un nivel de 192 KB entre los actuales L1 y L2. Esto dio lugar al cambio de nombre de L1 a L0. Esto aumenta el IPC y permite incrementar la capacidad de la caché L2 sin aumentar la latencia debido a la mayor capacidad. Como resultado, la caché L2 aumenta a 2,5 MB en Lunar Lake y a 3 MB en Arrow Lake.

Núcleos de bajo consumo

Los eficientes kernels de Lion Cove presentan muchas mejoras, pero Skymont promete un progreso aún mayor: un aumento del 38% del IPC en cargas de trabajo de enteros y del 68% en cargas de trabajo de coma flotante. Esto se traduce en hasta el doble de rendimiento en un solo subproceso y hasta el cuádruple en tareas multihilo. Intel también ha duplicado el rendimiento en las cargas de trabajo vectorizadas AVX y VNNI.

Intel ha optimizado el motor de predicción de bifurcaciones permitiendo el muestreo paralelo de 96 bytes de instrucciones para alimentar el motor de descodificación. Los núcleos Skymont pueden soportar 9 descodificaciones de instrucciones por ciclo de reloj. La capacidad de microoperación también se ha incrementado de 64 a 96 entradas.

Intel se ha fijado el objetivo de duplicar el rendimiento vectorial pasando de dos canales vectoriales de 128 bits con FP y SIMD a cuatro con Skymont. Otras mejoras del sistema vectorial tienen por objeto reducir la latencia y añadir soporte para el redondeo en coma flotante.

Los anteriores clusters de núcleos E tenían una caché L2 compartida de 2 MB, que ahora se ha aumentado a 4 MB con el doble de ancho de banda L2. También se ha mejorado el ancho de banda de transferencia de L1 a L1.

Curiosamente, Intel ha presentado una comparación entre Skymont y el Raptor Lake P-core, que utiliza la arquitectura Raptor Cove. La empresa afirma que Skymont tiene una ventaja del 2% tanto en números enteros como en coma flotante.

Gráficos Intel Xe2 integrados

La nueva GPU Xe2 ofrece hasta 1,5 veces el rendimiento de Arc Graphics en Meteor Lake y hasta 67 TOPS de rendimiento de IA. Intel ha simplificado la denominación de la GPU y se referirá a ella simplemente como Xe2 en todas las configuraciones, frente a los sufijos Xe-LP, Xe-HP y Xe-HPG de la generación anterior.

La arquitectura Xe2 de Intel aparecerá no sólo en los procesadores Lunar Lake, sino también en las futuras tarjetas gráficas para juegos Battlemage. Sin embargo, Lunar Lake utiliza transistores de menor potencia, mientras que Battlemage utilizará transistores más rápidos para obtener el máximo rendimiento. Esto significa que el rendimiento de Lunar Lake no puede extrapolarse directamente a las tarjetas gráficas Battlemage.

La arquitectura Xe2 incluye el núcleo Xe de segunda generación, soporte para más tipos de datos, motores vectoriales mejorados, unidades de trazado de rayos más grandes y una caché más amplia. La GPU se divide en núcleos Xe de segunda generación y unidades de renderizado, así como en unidades de función fija para tareas como el procesamiento de la geometría, el muestreo de texturas y la rasterización. Estas unidades están conectadas a una gran caché con una unidad de E/S que varía de una implementación a otra. El diseño es modular, por lo que puede ampliarse fácilmente a más o menos elementos.

El núcleo Xe de segunda generación puede realizar ocho multiplicaciones de 512 bits por ciclo de reloj en los motores vectoriales XVE y ocho vectores de 2048 bits por ciclo de reloj en los motores XMX. Intel también ha aumentado la anchura del motor SIMD de 8 a 16 carriles, lo que mejorará la compatibilidad. El núcleo tiene una L1 compartida de 192 KB.

El motor vectorial de segunda generación admite instrucciones INT2, INT4, INT8, FP16 y BF16 para operaciones de IA. También puedes ver una tabla con cálculos para picos TOPS (Ops/clock) en el álbum de arriba. La GPU Meteor Lake no tenía el motor XMX, así que los portátiles con Xe2 ganarán mucho en rendimiento de IA. La unidad de visualización también recibió muchas aceleraciones y mejoras.

El chip gráfico Lunar Lake cuenta con 8 núcleos Xe de segunda generación, 64 motores vectoriales, dos pipelines de geometría, ocho unidades de trazado de rayos y 8 MB de caché L2, entre otros componentes. Intel afirma que la iGPU ofrece 1,5 veces más rendimiento que la Meteor Lake-U con la misma potencia. Sin embargo, la GPU Lunar Lake tiene transistores de menor potencia para mejorar la eficiencia.

El motor de visualización admite resoluciones de hasta 8K60 HDR, tres pantallas 4K60 HDR, así como 1080p360 y 1440p360. Las salidas incluyen HDMI 2.1, DisplayPort 2.1 y eDP 1.5. El procesador multimedia admite decodificación y codificación de hasta 8K60 HDR de 10 bits, así como compatibilidad con todos los estándares multimedia, incluido el nuevo códec H.266/VVC — pero solo para decodificación.

NPU 4.0 y controlador

La nueva NPU supera a algunos análogos de la competencia presentados recientemente con un rendimiento de 48 TOPS. El chip independiente está diseñado principalmente para descargar las tareas de inteligencia artificial y ahorrar batería. La GPU es responsable de las cargas de trabajo de IA más exigentes con un rendimiento de 67 TOPS, mientras que la CPU proporciona otros 5 TOPS. En total, Lunar Lake ofrece 120 TOPS.

Los componentes arquitectónicos clave incluyen 12 DSP SHAVE mejorados, seis motores de cálculo neuronal y un motor MAC y DMA. Proporciona el doble de ancho de banda de memoria que las NPU de la generación anterior. También tiene acceso a una caché lateral compartida de 8 MB en el mosaico de cálculo. En conjunto, Intel afirma que ha mejorado 4 veces el rendimiento máximo con la misma potencia en comparación con la generación anterior.

El mosaico controlador contiene todas las E/S externas del chip, como Wi-Fi 7 y Bluetooth 5.4, USB 3.0 y 2.0, Thunderbolt 4 e interfaces PCIe 4.0 y 5.0. También alberga los controladores de memoria. También alberga los controladores de memoria.

Intel garantiza que todos los portátiles Lunar Lake tendrán al menos dos puertos de conexión Thunderbolt 4, y algunos modelos ofrecerán hasta tres. La interfaz también es compatible con la nueva función Thunderbolt Share. Wi-Fi 7 y Bluetooth 5.4 siguen necesitando un módulo CNVi conectado externamente a través de la interfaz CNVi 3.0. El nuevo módulo CRF BE201 es un 28% más pequeño.

Fuente: Tom`s Hardware

Los comentarios de Disqus están cargando....