PDP-11 / Dave Plummer
Відомий програміст-розробник застосунків для Windows Дейв Пламмер запустив нейромережу на 47-річному ПК PDP-11.
PDP-11 працює на процесорі 6 МГц та з 64 КБ ОЗП. На ньому Пламмер запускає модель трансформера “Attention 11”, написану мовою асемблера PDP-11 Демієном Бюре. Здається, що задача, яку має виконати нейромережа — перевернути послідовність з 8 цифр, напрочуд проста.
Однак після успішного виконання кожного вхідного етапу модель має засвоїти структурне правило для успішного виконання будь-якого виведення. На думку Пламмера, саме у цьому полягає ключова суть моделей навчання сучасних LLM з лінійним виведенням, як от ChatGPT.
“Одна людина бере клас алгоритмів, що наразі сприймаються світом як щось сакральне, й доводить, ще це можна скоротити, зрозуміти та реалізувати на системі, достатньо старій, з часів, коли ПЗ виходило з перемикачами й переплетеними в кільця посібниками. Тепер ви знаєте, що це насправді за процес. Це не магія ШІ. Це машина, яка постійно оновлює потужність тисяч маленьких зважених посилань, щоб наступна відповідь була трохи менш неправильною, ніж остання”, — зазначає Пламмер.
Попри використання Attention 11 — одношарового трансформера з однією головкою для концентрації уваги, повністю написаного мовою асемблера PDP-11, Пламмеру все одно доводиться оптимізувати систему з урахуванням обмежень.
Ця модель має всього 1216 параметрів та використовує обчислення з фіксованою точкою. Її точність обмежена 8 бітами. Кожен цикл оптимізується для того, щоб гарантувати, що модель взагалі завершить навчання.
Ми спостерігаємо за спрощеною анатомією самого навчання. Модель починає з нуля. Початково ймовірність помилки дуже висока. Точність коливається, як в людини, яка намагається зібрати меблі IKEA в кузові фургона, що рухається. А потім десь по дорозі формується шаблон. Механізм уваги починає створювати карту зворотного перетворення. Й машина перетинає цю невидиму межу від здогадки до знання, — коментує процес Пламмер.
Йому вдалось домогтись 100% точності моделі зі зворотного перетворення чисел приблизно після 350 кроків навчання. Для досягнення цього рівня на PDP-11/44 за допомогою кеш-пам’яті знадобилось близько 3,5 хвилин. За словами Пламмера, сучасний ШІ лише механічна технологія зі значно покращеним виправленням помилок та масштабними арифметичними обчисленнями.
“Ця стара машина не мислить у якомусь містичному сенсі. Вона просто виконує арифметичні обчислення для оновлення кількох тисяч ретельно збережених чисел. І в цьому вся суть. Привабливість сучасного ШІ в основному полягає в його масштабності. Але сам процес навчання вже повністю реалізовано у мініатюрі”, — наголошує Пламмер.
На завершення він додає, що в умовах дефіциту обчислювальних ресурсів будь-яка компанія, яка повернеться до принципів ефективності та оптимізації, зможе отримати значну перевагу.
Раніше ми писали, що ШІ допоміг NVIDIA скоротити процес проєктування мікросхем з 10 місяців до однієї ночі. Канадський стартап побудував перший у світі комерційний дата-центр у космосі.
Джерело: Tom’s Hardware
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.