Intel представила архитектуру Lunar Lake — с производительностью +18%, и +50 быстрой графикой Xe2 и без Hyperthreading в P-ядрах

Опубликовал
Андрій Русанов

Intel открыла подробности процессорной архитектуры Lunar Lake во время презентации Intel Tech Tour 2024 в преддверии основного доклада компании Computex 2024. Новые процессоры получат значительные улучшения в каждом аспекте дизайна. Процессоры Lunar Lake в первую очередь разрабатываются для ноутбуков, хотя многие фундаментальные изменения могут быть перенесены в чипы Arrow Lake для настольных ПК.

Каждый компонент архитектуры Lunar Lake был оптимизирован для баланса мощности и производительности. Больше всего усовершенствованы энергоэффективные ядра (E-cores), с приростом количества IPC (инструкций за такт) на 38% и 68% в новых ядрах Skymont. Также на 14% возросла IPC у P-ядер Lion Cove. Благодаря новой интегрированной графике Xe2 производительность встроенного видеочипа увеличится на 50%.

Lunar Lake имеет новый нейронный процессор Intel для искусственного интеллекта с производительностью 48 TOPS. На самом деле платформа Lunar Lake имеет еще большую производительность искусственного интеллекта — в целом она предлагает 120 TOPS, с учетом вычислительных ядер и iGPU.

Курс Power Skills For Tech від Enlgish4IT.
Зменшіть кількість непорозумінь на робочому місці та станьте більш ефективним у спілкуванні в мультикультурній команді. Отримайте знижку 10% за промокодом ITCENG.
Реєстрація на курс

Мобильные процессоры Lunar Lake спроектированы по новой методологии, которая сосредоточена на обеспечении энергоэффективности как первоочередного приоритета. Эта базовая архитектура будет использована в будущих продуктах Intel, таких как Arrow Lake и Panther Lake.

Intel обратилась к конкуренту, TSMC, за передовым 3 нм техпроцессом N3B для создания вычислительных ядер, встроенной графики и NPU. Техпроцесс TSMC N6 использован для контроллера, который содержит внешние интерфейсы ввода-вывода. Единственным элементом, изготовленным Intel, является пассивная базовая плитка 22FFL Foveros. Intel утверждает, что выбрала TSMC за лучшие из доступных техпроцессов. Однако компания разработала архитектуру такой, чтобы ее можно было легко переносить на другие техпроцессы.

Строение SoC Lunar Lake

Процессоры Lunar Lake от Intel получат 4 P-ядра и 4 E-ядра. Микросхема состоит из двух логических плиток: вычислительной плитки (TSMC N3B) и плитки контроллера платформы (N6), а также элемента жесткости (нефункциональный), размещенного на базовой плитке Foveros 22FFL. Intel разместила два стека памяти LPDDR5X-8500 непосредственно на корпусе микросхемы в конфигурациях 16 ГБ или 32 ГБ. Память обменивается данными через четыре 16-битных канала и обеспечивает пропускную способность до 8,5 ГТ/с на чип.

Вычислительная плитка содержит основные ядра, чипы Xe2 и NPU 4.0. Он также оснащен новым «боковым кэшем» 8 МБ, который совместно используется между всеми вычислительными блоками, чтобы повысить частоту обращений и уменьшить перемещение данных. Технически он не соответствует определению кэша L4, поскольку является общим для всех элементов.

Вынос подсистемы питания из чипа также добавил экономии энергии. В целом Intel заявляет о снижении потребления на 40% по сравнению с Meteor Lake.

Производительные ядра

P-ядра Lunar Lake обеспечивают средний прирост IPC на 14%, что повышает производительность. Однако Intel сделала неожиданный шаг в оптимизации ядер — устранила Hyperthreading и все логические блоки, которые обеспечивали эту функцию. Архитекторы Intel пришли к выводу, что гиперпоточность, которая повышает IPC на ~30% в многопоточных рабочих нагрузках, не столь уместна в гибридном дизайне, который использует более энергоэффективные E-ядра для многопоточных нагрузок. Intel говорит об общем повышении производительности от 10% до 18% по сравнению с Meteor Lake в зависимости от рабочей мощности чипа.

Удаление Hyperthreading делает ядро меньше, обеспечивает 15% повышение эффективности, 10% повышение производительности на площадь и 30% повышение производительности на мощность на площадь. Это намного эффективнее, чем просто отключить Hyperthreading и оставить схему. Новый подход также сохраняет площадь для других дополнений — можно добавить больше E-ядер или ядер GPU.

Intel не отказывается от гиперпоточности полностью — она все еще видит ее ценность в конструкциях только с P-ядрами. Таким образом, Intel разработала две версии ядра Lion Cove, одну с гиперпоточностью, а другую без нее, чтобы потоковое ядро можно было использовать в других проектах, как в будущих Xeon 6.

Тактовые частоты Intel ранее регулировались только с шагом 100 МГц), но теперь их можно настраивать в диапазонах 16,67 МГц, чтобы обеспечить более точное управление частотой и мощностью. Intel объясняет это несколькими процентными увеличениями энергоэффективности или производительности в некоторых сценариях.

Intel расширила блок предсказания в 8 раз по сравнению с предыдущей архитектурой, сохраняя при этом точность. Также утроена пропускная способность запроса от кэша инструкций к L2 и удвоена пропускная способность выборки инструкций, с 64 до 128 байт в секунду. Пропускная способность декодирования была увеличена с 6 до 8 инструкций за цикл, а кэш микроопераций увеличен вместе с пропускной способностью чтения. Очередь микроопераций также была увеличена со 144 до 192.

Подсистема памяти имеет новый уровень кэша L0. Архитекторы полностью переработали кэш данных, чтобы добавить уровень 192 КБ между существующими L1 и L2. Это привело к переименованию L1 в L0. Это увеличивает IPC и позволяет увеличить емкость кэша L2 без увеличения задержки благодаря увеличенной емкости. В результате кэш L2 возрастает до 2,5 МБ на Lunar Lake и 3 МБ на Arrow Lake.

Энергоэффективные ядра

Эффективные ядра Lion Cove имеют большое количество усовершенствований, но Skymont обещают еще больший прогресс: рост IPC на 38% в целочисленных рабочих нагрузках и на 68% в работе с плавающей запятой. Это дает увеличение к однопоточной производительности до 2 раз и до 4 раз более высокую производительность в многопоточных задачах. Intel также удвоила пропускную способность в векторизованных рабочих нагрузках AVX и VNNI.

Intel оптимизировала механизм предсказания разветвлений, включив параллельную выборку 96 байтов инструкций для подачи механизма декодирования. Ядра Skymont могут поддерживать 9 декодирований инструкций за такт. Емкость микрооперации также увеличена с 64 до 96 записей.

Intel поставила перед собой цель вдвое улучшить векторную производительность благодаря переходу от двух 128-битных векторных каналов FP и SIMD к четырем с Skymont. Другие усовершенствования векторной системы направлены на уменьшение задержки и добавление поддержки округления с плавающей запятой.

Предыдущие кластеры E-core имели общий кэш L2 2 МБ, теперь он был увеличен до 4 МБ с двойной пропускной способностью L2. Также была улучшена пропускная способность передачи с L1 на L1.

Из интересного, Intel предоставила сравнение Skymont и P-ядра Raptor Lake, которое использует архитектуру Raptor Cove. Компания заявляет о преимуществе Skymont на 2% в целых числах и с плавающей запятой.

Встроенная графика Intel Xe2

Новый графический процессор Xe2 обеспечивает до 1,5 раза более высокую производительность, чем Arc Graphics у от Meteor Lake и производительность ИИ до 67 TOPS. Intel упростила наименование GPU и будет называть ее просто Xe2 во всех конфигурациях, в отличие от суффиксов Xe-LP, Xe-HP и Xe-HPG у предыдущего поколения.

Архитектура Intel Xe2 появится не только в процессорах Lunar Lake, но и в будущих игровых видеокартах Battlemage. Впрочем, Lunar Lake использует транзисторы с меньшей мощностью, тогда как Battlemage будет использовать более быстрые транзисторы для максимальной производительности. Это означает, что производительность Lunar Lake нельзя напрямую экстраполировать на видеокарты Battlemage.

Архитектура Xe2 включает ядро Xe второго поколения, поддержку больше типов данных, улучшенные векторные механизмы, большие блоки трассировки лучей и больший кэш. Графический процессор разбит на ядра Xe второго поколения и элементы визуализации, а также элементы с фиксированными функциями для таких задач, как обработка геометрии, выборка текстуры и растеризация. Эти блоки подключены к большой кэш-памяти с блоком ввода-вывода, который отличаются в зависимости от реализации. Конструкция является модульной, поэтому ее можно легко масштабировать до большего или меньшего количества элементов.

Ядро Xe второго поколения может выполнять восемь 512-битных умножений за такт в векторных механизмах XVE и восемь 2048-битных векторов за такт в механизмах XMX. Intel также увеличила ширину механизма SIMD с 8 до 16 полос, что улучшит совместимость. Ядро имеет общий L1 на 192 КБ.

Векторный механизм второго поколения поддерживает инструкции INT2, INT4, INT8, FP16 и BF16 для операций ИИ. Вы также можете увидеть таблицу с расчетами для пиковых TOPS (Ops/clock) в альбоме выше. Графический процессор Meteor Lake не имел движка XMX, поэтому ноутбуки с Xe2 получат значительное в работе с ИИ. Блок визуализации получил также получил много ускорений и улучшений.

Видеочип Lunar Lake оснащен 8 ядрами Xe второго поколения, 64 векторными механизмами, двумя конвейерами геометрии, восемью блоками трассировки лучей и 8 МБ Кэша L2, среди других компонентов. Intel говорит, что iGPU обеспечивает в 1,5 раза большую производительность, чем Meteor Lake-U, при той же мощности. Однако графический процессор Lunar Lake получил транзисторы меньшей мощности для лучшей эффективности.

Механизм отображения поддерживает разрешение до 8K60 HDR, три дисплея 4K60 HDR, а также 1080p360 и 1440p360. Выходы включают HDMI 2.1, DisplayPort 2.1 и eDP 1.5. Медиапроцессор поддерживает декодирование и кодирование до 8K60 10-bit HDR, а также поддержку всех медиастандартов вместе с новым кодеком H.266/VVC — но только для декодирования.

NPU 4.0 и контроллер

Новый NPU благодаря производительности 48 TOPS превосходит некоторые недавно представленные аналоги от конкурентов. Отдельный чип в первую очередь предназначен для разгрузки задач искусственного интеллекта и экономии экономя заряда аккумулятора. Графический процессор отвечает за более требовательные рабочие нагрузки ИИ с производительностью 67 TOPS, а центральный процессор обеспечивает еще 5 TOPS. Все вместе дает Lunar Lake 120 TOPS.

Ключевые архитектурные компоненты включают 12 улучшенных DSP SHAVE, шесть нейронных вычислительных механизмов, а также механизм MAC и DMA. Обеспечивается вдвое большая пропускная способность памяти, чем для NPU предыдущего поколения. Он также имеет доступ к общему боковому кэшу размером 8 МБ на вычислительной плитке. В целом Intel заявляет о 4-кратном улучшении максимальной производительности при той же мощности по сравнению с предыдущим поколением.

Плитка контроллера содержит все внешние функции ввода/вывода для чипа, включая Wi-Fi 7 и Bluetooth 5.4, USB 3.0 и 2.0, Thunderbolt 4 и интерфейсы PCIe 4.0 и 5.0. В нем также расположены контроллеры памяти.

Intel гарантирует, что все ноутбуки Lunar Lake будут иметь по крайней мере два порта подключения Thunderbolt 4, а некоторые модели будут предлагать до трех. Интерфейс также поддерживает новую функцию Thunderbolt Share. Для работы Wi-Fi 7 и Bluetooth 5.4 все еще нужен модуль CNVi, подключенный извне через интерфейс CNVi 3.0.

Источник: Tom`s Hardware

Disqus Comments Loading...