GPT-4 имеет 1,8 трлн параметров на 120 уровнях: детали об архитектуре новейшей нейросети OpenAI

GPT-4 имеет 1,8 трлн параметров на 120 уровнях — в сети появились детали об архитектуре новейшей нейросети OpenAI

Автор сайта

Раздел Технологии выходит при поддержке Favbet Tech

Технические подробности о языковой модели GPT-4, недавно ставшей общедоступной, проникли в Twitter, Reddit и на Treadreader. В нескольких словах, модель в 10 раз больше, лучше использует ресурсы и быстрее работает, но стоимость логического вывода увеличилась в 3 раза.

GPT-4 оперирует приблизительно 1,8 трлн параметров на 120 уровнях, что в 10 раз больше, чем у GPT-3. Он использует модель Mixture of Experts (MoE) с 16 экспертами, каждый из которых имеет около 111 млрд параметров. Использование MoE позволяет более эффективно распоряжаться ресурсами для логического вывода, требуя всего около 280 миллиардов параметров и 560 TFLOPs по сравнению с 1,8 трлн параметров и 3700 TFLOPs, необходимыми для плотной модели (старой).

Модель обучается примерно на 13 трлн токенов из различных источников, включая интернет, книги и исследовательские работы. Чтобы снизить затраты на обучение, OpenAI использует тензорный и конвейерный параллелизм, а также большой размер пакета в 60 млн. Ориентировочная стоимость обучения для GPT-4 составляет около $63 млн.

Хотя большее количество экспертов могло бы улучшить производительность модели, OpenAI решили использовать 16 из-за проблем с обобщением и конвергенцией. Стоимость логического вывода GPT-4 в три раза выше, чем у его предшественника, DaVinci, в основном из-за необходимости в более крупных кластерах и более низкой степени использования. Модель также включает в себя отдельный видеокодер с перекрестным вниманием для мультимодальных задач, таких как чтение веб-страниц и расшифровка изображений и видео.

OpenAI может использовать спекулятивное декодирование для вывода GPT-4, которое включает использование меньшей модели для предварительного прогнозирования токенов и передачу их в большую модель в одном пакете. Этот подход может помочь оптимизировать затраты на логические выводы, но давать большую задержку.

Это короткое и упрощенное изложение, хотя и оно достаточно сложное. Больше технических деталей можно найти здесь.

OpenAI пока не обучает GPT-5 – Сэм Альтман говорит, что предстоит еще много подготовительных работ

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.

GPT-4 имеет 1,8 трлн параметров на 120 уровнях — в сети появились детали об архитектуре новейшей нейросети OpenAI

Ваш комментарий (необязательно):