GPT-4 має 1,8 трлн параметрів на 120 рівнях: деталі про архітектуру новітньої нейромережі OpenAI

Технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною, потрапили у Twitter, Reddit та Treadreader. У кількох словах модель в 10 разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у 3 рази.

GPT-4 оперує приблизно 1,8 трлн параметрів на 120 рівнях, що у 10 разів більше, ніж у GPT-3. Він використовує модель Mixture of Experts (MoE) з 16 експертами, кожен із яких має близько 111 млрд параметрів. Використання MoE дозволяє більш ефективно розпоряджатися ресурсами для логічного виведення, вимагаючи всього близько 280 млрд параметрів та 560 TFLOPs порівняно з 1,8 трлн параметрів та 3700 TFLOPs, необхідними для щільної моделі (старої).

Модель навчається приблизно на 13 трлн токенів з різних джерел, включаючи інтернет, книги та дослідницькі роботи. Щоб знизити витрати на навчання, OpenAI використовує тензорний та конвеєрний паралелізм, а також великий розмір пакета в 60 млн. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.

Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника, DaVinci, в основному через необхідність у більших кластерах та нижчому ступені використання. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.

OpenAI може використовувати спекулятивне декодування для виведення GPT-4, яке включає використання меншої моделі для попереднього прогнозування токенів та передачу їх у велику модель в одному пакеті. Цей підхід допоможе оптимізувати витрати на логічні висновки, але давати велику затримку.

Це короткий та спрощений виклад, хоч і він досить складний. Більше технічних деталей можна знайти тут.

OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.

ЧИТАЦЬКА ДУМКА

В матеріалі написана нісенітниця? Претендуєте на експертність? Не згодні з автором? Ви справжній ерудит? — Тоді дайте аргументну відповідь, яка не загубиться в коментарях! Для цього навіть не потрібна реєстрація. Але тут не пишуть коротко — тільки ґрунтовна думка, не менше 77 слів.

Написати

Не підтримую
0

Експертні відповіді та аргументи читачів, які не згодні з автором.

Підтримую
0

Експертні відповіді та аргументи читачів, які підтримують автора.

GPT-4 має 1,8 трлн параметрів на 120 рівнях — в мережі з’явилися деталі про архітектуру новітньої нейромережі OpenAI

Популярні новини