Новини Технології 11.07.2023 о 15:26 comment views icon

GPT-4 має 1,8 трлн параметрів на 120 рівнях — в мережі з’явилися деталі про архітектуру новітньої нейромережі OpenAI

author avatar

Андрій Русанов

Автор сайту

Розділ Технології виходить за підтримки

Технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною, потрапили у Twitter, Reddit та Treadreader. У кількох словах модель в 10 разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у 3 рази.

GPT-4 оперує приблизно 1,8 трлн параметрів на 120 рівнях, що у 10 разів більше, ніж у GPT-3. Він використовує модель Mixture of Experts (MoE) з 16 експертами, кожен із яких має близько 111 млрд параметрів. Використання MoE дозволяє більш ефективно розпоряджатися ресурсами для логічного виведення, вимагаючи всього близько 280 млрд параметрів та 560 TFLOPs порівняно з 1,8 трлн параметрів та 3700 TFLOPs, необхідними для щільної моделі (старої).

Модель навчається приблизно на 13 трлн токенів з різних джерел, включаючи інтернет, книги та дослідницькі роботи. Щоб знизити витрати на навчання, OpenAI використовує тензорний та конвеєрний паралелізм, а також великий розмір пакета в 60 млн. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.

Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника, DaVinci, в основному через необхідність у більших кластерах та нижчому ступені використання. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.

OpenAI може використовувати спекулятивне декодування для виведення GPT-4, яке включає використання меншої моделі для попереднього прогнозування токенів та передачу їх у велику модель в одному пакеті. Цей підхід допоможе оптимізувати витрати на логічні висновки, але давати велику затримку.

Це короткий та спрощений виклад, хоч і він досить складний. Більше технічних деталей можна знайти тут.

OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ

 

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: