Технічні подробиці про мовну модель GPT-4, яка нещодавно стала загальнодоступною, потрапили у Twitter, Reddit та Treadreader. У кількох словах модель в 10 разів більша, краще використовує ресурси та швидше працює, але вартість логічного виведення збільшилася у 3 рази.
GPT-4 оперує приблизно 1,8 трлн параметрів на 120 рівнях, що у 10 разів більше, ніж у GPT-3. Він використовує модель Mixture of Experts (MoE) з 16 експертами, кожен із яких має близько 111 млрд параметрів. Використання MoE дозволяє більш ефективно розпоряджатися ресурсами для логічного виведення, вимагаючи всього близько 280 млрд параметрів та 560 TFLOPs порівняно з 1,8 трлн параметрів та 3700 TFLOPs, необхідними для щільної моделі (старої).
Модель навчається приблизно на 13 трлн токенів з різних джерел, включаючи інтернет, книги та дослідницькі роботи. Щоб знизити витрати на навчання, OpenAI використовує тензорний та конвеєрний паралелізм, а також великий розмір пакета в 60 млн. Орієнтовна вартість навчання для GPT-4 становить близько $63 млн.
Хоча більша кількість експертів могла б покращити продуктивність моделі, OpenAI вирішили використати 16 через проблеми з узагальненням та конвергенцією. Вартість логічного висновку GPT-4 утричі вища, ніж у його попередника, DaVinci, в основному через необхідність у більших кластерах та нижчому ступені використання. Модель також включає окремий відеокодер з перехресною увагою для мультимодальних завдань, таких як читання вебсторінок та розшифровка зображень і відео.
OpenAI може використовувати спекулятивне декодування для виведення GPT-4, яке включає використання меншої моделі для попереднього прогнозування токенів та передачу їх у велику модель в одному пакеті. Цей підхід допоможе оптимізувати витрати на логічні висновки, але давати велику затримку.
Це короткий та спрощений виклад, хоч і він досить складний. Більше технічних деталей можна знайти тут.
OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ
Favbet Tech – це ІТ-компанія зі 100% украінською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: