Intel представила архітектуру Lunar Lake — з продуктивністю +18%, та +50 швидкою графікою Xe2 і без Hyperthreading в P-ядрах

Опубликовал
Андрій Русанов

Intel відкрила подробиці процесорної архітектури Lunar Lake під час презентації Intel Tech Tour 2024 напередодні основної доповіді компанії Computex 2024. Нові процесори отримають значні покращення в кожному аспекті дизайну. Процесори Lunar Lake в першу чергу розробляються для ноутбуків, хоча багато фундаментальних змін можуть бути перенесені у чипи Arrow Lake для настільних ПК.

Кожен компонент архітектури Lunar Lake було оптимізовано для балансу потужності та продуктивності. Найбільше вдосконалені енергоефективні ядра (E-cores), з приростом кількості IPC (інструкцій за такт) на 38% та 68% у нових ядрах Skymont. Також на 14% зросла IPC у P-ядер Lion Cove. Завдяки новій інтегрованій графіці Xe2 продуктивність вбудованого відеочипа збільшиться на 50%.

Lunar Lake має новий нейронний процесор Intel для штучного інтелекту з продуктивністю 48 TOPS. Насправді платформа Lunar Lake має ще більшу продуктивність штучного інтелекту — загалом вона пропонує 120 TOPS, з урахуванням обчислювальних ядер та iGPU.

Курс Frontend розробки від Mate academy.
Front-end розробник одна з найзатребуваніших професій на IT ринку. У Mate academy ми навчимо вас розробляти візуально привабливі та зручні інтерфейси. Після курсу ви зможете створювати вебсайти і застосунки, що вразять і користувачів, і роботодавців.
Дізнатися більше про курс

Мобільні процесори Lunar Lake спроєктовані за новою методологією, яка зосереджена на забезпеченні енергоефективності як першочергового пріоритету. Ця базова архітектура буде використана у майбутніх продуктах Intel, таких як Arrow Lake і Panther Lake.

Intel звернулася до конкурента, TSMC, за передовим 3 нм техпроцесом N3B для створення обчислювальних ядер, вбудованої графіки та NPU. Техпроцес TSMC N6 використаний для контролера, який містить зовнішні інтерфейси введення-виведення. Єдиним елементом, виготовленим Intel, є пасивна базова плитка 22FFL Foveros. Intel стверджує, що обрала TSMC за найкращі з доступних техпроцесів. Однак компанія розробила архітектуру такою, щоб її можна було легко переносити на інші техпроцеси.

Будова SoC Lunar Lake

Процесори Lunar Lake від Intel отримають 4 P-ядра та 4 E-ядра. Мікросхема складається з двох логічних плиток: обчислювальної плитки (TSMC N3B) та плитки контролера платформи (N6), а також елемента жорсткості (нефункціональний), розміщеного на базовій плитці Foveros 22FFL. Intel розмістила два стеки пам’яті LPDDR5X-8500 безпосередньо на корпусі мікросхеми в конфігураціях 16 ГБ або 32 ГБ. Пам’ять обмінюється даними через чотири 16-бітні канали та забезпечує пропускну здатність до 8,5 ГТ/с на чип.

Обчислювальна плитка містить основні ядра, чипи Xe2 та NPU 4.0. Також вона оснащена новим «бічним кешем» 8 МБ, який спільно використовується між усіма обчислювальними блоками, щоб підвищити частоту звернень та зменшити переміщення даних. Технічно він не відповідає визначенню кешу L4, оскільки є спільним для всіх елементів.

Винесення підсистеми живлення з чипа також додало економії енергії. Загалом Intel заявляє про зниження споживання на 40% порівняно з Meteor Lake.

Продуктивні ядра

P-ядра Lunar Lake забезпечують середній приріст IPC на 14%, що підвищує продуктивність. Однак Intel зробила несподіваний крок в оптимізації ядер — усунула Hyperthreading та всі логічні блоки, які забезпечували цю функцію. Архітектори Intel прийшли до висновку, що гіперпотоковість, яка підвищує IPC на ~30% у багатопотокових робочих навантаженнях, не настільки доречна в гібридному дизайні, який використовує більш енергоефективні E-ядра для багатопотокових навантажень. Intel каже про загальне підвищення продуктивності від 10% до 18% порівняно з Meteor Lake залежно від робочої потужності чипа.

Видалення Hyperthreading робить ядро ​​меншим, забезпечує 15% підвищення ефективності, 10% підвищення продуктивності на площу та 30% підвищення продуктивності на потужність на площу. Це набагато ефективніше, ніж просто вимкнути Hyperthreading та залишити схему. Новий підхід також зберігає площу для інших добавок — можна додати більше E-ядер або ядер GPU.

Intel не відкидає гіперпотоковість повністю — вона все ще бачить її цінність у конструкціях лише з P-core. Таким чином, Intel розробила дві версії ядра Lion Cove, одну з гіперпотоковістю, а іншу без неї, щоб потокове ядра можна було використовувати в інших проєктах, як у майбутніх Xeon 6.

Тактові частоти Intel раніше регулювалися лише з кроком 100 МГц), але тепер їх можна налаштовувати в діапазонах 16,67 МГц, щоб забезпечити більш точне керування частотою та потужністю. Intel пояснює це кількома відсотковим збільшенням енергоефективності або продуктивності в деяких сценаріях.

Intel розширила блок передбачення у 8 разів порівняно з попередньою архітектурою, зберігаючи при цьому точність. Також потроєно пропускну здатність запиту від кешу інструкцій до L2 і подвоєно пропускну здатність вибірки інструкцій, з 64 до 128 байт на секунду. Пропускну здатність декодування було збільшено з 6 до 8 інструкцій за цикл, а кеш мікрооперацій збільшено разом із пропускною здатністю читання. Черга мікрооперацій також була збільшена зі 144 до 192.

Підсистема пам’яті має новий рівень кешу L0. Архітектори повністю переробили кеш даних, щоб додати рівень 192 КБ між наявними L1 і L2. Це призвело до перейменування L1 на L0. Це збільшує IPC і дає змогу збільшити місткість кешу L2 без збільшення затримки завдяки збільшеній місткості. В результаті кеш L2 зростає до 2,5 МБ на Lunar Lake і 3 МБ на Arrow Lake.

Енергоефективні ядра

Ефективні ядра Lion Cove мають велику кількість удосконалень, але Skymont обіцяють ще більший прогрес: зростання IPC на 38% у цілочисельних робочих навантаженнях та на 68% у роботі з плаваючою комою. Це дає збільшення до однопотокової продуктивності до 2 разів та до 4 разів вищу продуктивність в багатопотокових завданнях. Intel також подвоїла пропускну здатність у векторизованих робочих навантаженнях AVX та VNNI.

Intel оптимізувала механізм передбачення розгалужень, включивши паралельну вибірку 96 байтів інструкцій для подачі механізму декодування. Ядра Skymont можуть підтримувати 9 декодувань інструкцій за такт. Місткість мікрооперації також збільшено з 64 до 96 записів.

Intel поставила перед собою мету удвічі покращити векторну продуктивність завдяки переходу від двох 128-бітних векторних каналів FP і SIMD до чотирьох із Skymont. Інші вдосконалення векторної системи спрямовані на зменшення затримки та додавання підтримки округлення з плаваючою комою.

Попередні кластери E-core мали спільний кеш L2 2 МБ, тепер його було збільшено до 4 МБ із подвійною пропускною здатністю L2. Також було покращено пропускну здатність передачі з L1 на L1.

З цікавого, Intel надала порівняння Skymont та P-ядра Raptor Lake, яке використовує архітектуру Raptor Cove. Компанія заявляє про перевагу Skymont на 2% у цілих числах та з плаваючою комою.

Вбудована графіка Intel Xe2

Новий графічний процесор Xe2 забезпечує до 1,5 раза вищу продуктивність, ніж Arc Graphics у від Meteor Lake та продуктивність ШІ до 67 TOPS. Intel спростила найменування GPU і називатиме її просто Xe2 у всіх конфігураціях, на відміну від суфіксів Xe-LP, Xe-HP і Xe-HPG у попереднього покоління.

Архітектура Intel Xe2 з’явиться не тільки в процесорах Lunar Lake, але й у майбутніх ігрових відеокартах Battlemage. Втім, Lunar Lake використовує транзистори з меншою потужністю, тоді як Battlemage використовуватиме швидші транзистори для максимальної продуктивності. Це означає, що продуктивність Lunar Lake не можна безпосередньо екстраполювати на відеокарти Battlemage.

Архітектура Xe2 включає ядро ​​Xe другого покоління, підтримку більше типів даних, покращені векторні механізми, більші блоки трасування променів та більший кеш. Графічний процесор розбитий на ядра Xe другого покоління та елементи візуалізації, а також елементи з фіксованими функціями для таких завдань, як обробка геометрії, вибірка текстури та растеризація. Ці блоки підключені до великої кеш-пам’яті із блоком вводу-виводу, який відрізняються залежно від реалізації. Конструкція є модульною, тому її можна легко масштабувати до більшої чи меншої кількості елементів.

Ядро Xe другого покоління може виконувати вісім 512-бітних множень за такт у векторних механізмах XVE та вісім 2048-бітних векторів за такт у механізмах XMX. Intel також збільшила ширину механізму SIMD з 8 до 16 смуг, що покращить сумісність. Ядро має спільний L1 на 192 КБ.

Векторний механізм другого покоління підтримує інструкції INT2, INT4, INT8, FP16 і BF16 для операцій ШІ. Ви також можете побачити таблицю з розрахунками для пікових TOPS (Ops/clock) в альбомі вище. Графічний процесор Meteor Lake не мав рушія XMX, тому ноутбуки з Xe2 отримають значне у роботі з ШІ. Блок візуалізації отримав також отримав багато прискорень та покращень.

Відеочип Lunar Lake оснащено 8 ядрами Xe другого покоління, 64 векторними механізмами, двома конвеєрами геометрії, вісьмома блоками трасування променів і 8 МБ Кеша L2, серед інших компонентів. Intel каже, що iGPU забезпечує в 1,5 раза більшу продуктивність, ніж Meteor Lake-U, за тієї самої потужності. Однак графічний процесор Lunar Lake отримав транзистори меншої потужності для кращої ефективності.

Механізм відображення підтримує роздільну здатність до 8K60 HDR, три дисплеї 4K60 HDR, а також 1080p360 і 1440p360. Виходи включають HDMI 2.1, DisplayPort 2.1 і eDP 1.5. Медіапроцесор підтримує декодування та кодування до 8K60 10-bit HDR, а також підтримку всіх медіастандартів разом із новим кодеком H.266/VVC — але лише для декодування.

NPU 4.0 та контролер

Новий NPU завдяки продуктивності 48 TOPS перевершує деякі нещодавно представлені аналоги від конкурентів. Окремий чип в першу чергу призначений для розвантаження завдань штучного інтелекту та економії економлячи заряду акумулятора. Графічний процесор відповідає за більш вимогливі робочі навантаження ШІ з продуктивністю 67 TOPS, а центральний процесор забезпечує ще 5 TOPS. Усе разом дає Lunar Lake 120 TOPS.

Ключові архітектурні компоненти включають 12 покращених DSP SHAVE, шість нейронних обчислювальних механізмів, а також механізм MAC і DMA. Забезпечується вдвічі більша пропускна здатність пам’яті, ніж для NPU попереднього покоління. Він також має доступ до спільного бічного кешу розміром 8 МБ на обчислювальній плитці. Загалом Intel заявляє про 4-кратне покращення максимальної продуктивності за тієї самої потужності порівняно з попереднім поколінням.

Плитка контролера містить усі зовнішні функції вводу/виводу для чипа, включаючи Wi-Fi 7 та Bluetooth 5.4, USB 3.0 і 2.0, Thunderbolt 4 та інтерфейси PCIe 4.0 і 5.0. У ньому також розташовані контролери пам’яті.

Intel гарантує, що всі ноутбуки Lunar Lake матимуть принаймні два порти підключення Thunderbolt 4, а деякі моделі пропонуватимуть до трьох. Інтерфейс також підтримує нову функцію Thunderbolt Share. Для роботи Wi-Fi 7 та Bluetooth 5.4 все ще потрібен модуль CNVi, підключений ззовні через інтерфейс CNVi 3.0.

Джерело: Tom`s Hardware

Disqus Comments Loading...