GPT-4 имеет 1,8 трлн параметров на 120 уровнях — в сети появились детали об архитектуре новейшей нейросети OpenAI

Опубликовал
Андрей Русанов

Технические подробности о языковой модели GPT-4, недавно ставшей общедоступной, проникли в Twitter, Reddit и на Treadreader. В нескольких словах, модель в 10 раз больше, лучше использует ресурсы и быстрее работает, но стоимость логического вывода увеличилась в 3 раза.

GPT-4 оперирует приблизительно 1,8 трлн параметров на 120 уровнях, что в 10 раз больше, чем у GPT-3. Он использует модель Mixture of Experts (MoE) с 16 экспертами, каждый из которых имеет около 111 млрд параметров. Использование MoE позволяет более эффективно распоряжаться ресурсами для логического вывода, требуя всего около 280 миллиардов параметров и 560 TFLOPs по сравнению с 1,8 трлн параметров и 3700 TFLOPs, необходимыми для плотной модели (старой).

Модель обучается примерно на 13 трлн токенов из различных источников, включая интернет, книги и исследовательские работы. Чтобы снизить затраты на обучение, OpenAI использует тензорный и конвейерный параллелизм, а также большой размер пакета в 60 млн. Ориентировочная стоимость обучения для GPT-4 составляет около $63 млн.

Хотя большее количество экспертов могло бы улучшить производительность модели, OpenAI решили использовать 16 из-за проблем с обобщением и конвергенцией. Стоимость логического вывода GPT-4 в три раза выше, чем у его предшественника, DaVinci, в основном из-за необходимости в более крупных кластерах и более низкой степени использования. Модель также включает в себя отдельный видеокодер с перекрестным вниманием для мультимодальных задач, таких как чтение веб-страниц и расшифровка изображений и видео.

Курс-професія "Дизайнер інтер'єрів" від Skvot.
Велика практична програма для всіх, хто хоче засвоїти професію дизайнера інтер'єрів і заробляти на реальних проєктах відразу після курсу. Досвідом та інсайтами діляться одразу три лектори.
Програма курсу

OpenAI может использовать спекулятивное декодирование для вывода GPT-4, которое включает использование меньшей модели для предварительного прогнозирования токенов и передачу их в большую модель в одном пакете. Этот подход может помочь оптимизировать затраты на логические выводы, но давать большую задержку.

Это короткое и упрощенное изложение, хотя и оно достаточно сложное. Больше технических деталей можно найти здесь.

Disqus Comments Loading...