GPT-4 має 1,8 трлн параметрів на 120 рівнях — в мережі з’явилися деталі про архітектуру новітньої нейромережі OpenAI

Опубликовал
Андрей Русанов

Технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною, потрапили у Twitter, Reddit та Treadreader. У кількох словах модель в 10 разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у 3 рази.

GPT-4 оперує приблизно 1,8 трлн параметрів на 120 рівнях, що у 10 разів більше, ніж у GPT-3. Він використовує модель Mixture of Experts (MoE) з 16 експертами, кожен із яких має близько 111 млрд параметрів. Використання MoE дозволяє більш ефективно розпоряджатися ресурсами для логічного виведення, вимагаючи всього близько 280 млрд параметрів та 560 TFLOPs порівняно з 1,8 трлн параметрів та 3700 TFLOPs, необхідними для щільної моделі (старої).

Модель навчається приблизно на 13 трлн токенів з різних джерел, включаючи інтернет, книги та дослідницькі роботи. Щоб знизити витрати на навчання, OpenAI використовує тензорний та конвеєрний паралелізм, а також великий розмір пакета в 60 млн. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.

Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника, DaVinci, в основному через необхідність у більших кластерах та нижчому ступені використання. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.

Курс UX/UI дизайнер сайтів і застосунків з Alice K.
Курс від практикуючої UI/UX дизайнерки, після якого ви знатимете все про UI/UX дизайн .
Реєстрація на курс

OpenAI може використовувати спекулятивне декодування для виведення GPT-4, яке включає використання меншої моделі для попереднього прогнозування токенів та передачу їх у велику модель в одному пакеті. Цей підхід допоможе оптимізувати витрати на логічні висновки, але давати велику затримку.

Це короткий та спрощений виклад, хоч і він досить складний. Більше технічних деталей можна знайти тут.

 

Disqus Comments Loading...