Ответы ChatGPT на основе GPT-4 стали хуже за последние месяцы, а GPT-3.5 улучшила результат – исследование

Опубликовал
Андрей Русанов

В последние месяцы в сети растет недовольство снижением качества ответов ChatGPT. Группа ученых из Стэнфорда и Калифорнийского университета решила определить, действительно ли имеет место деградация выдачи в языковой модели GPT-4. Исследование подтвердило этот факт: например, точность ответа на вопрос «Является ли это простым числом?» упала с 97,6% до 2,4% с марта по июнь.

Исследовательская группа разработала задачи для измерения качественных аспектов  работы ChatGPT на основе моделей GPT-4 и GPT-3.5. Чат-бот проверили по таким критериям:

  • Решение математических задач
  • Ответы на деликатные вопросы
  • Генерация кода
  • Визуальное восприятие

Сравнительный результат представлен в диаграмме:

  • В июне GPT-4 на все вопросы (кроме визуальной задачи) ответил хуже по сравнению с мартовским результатом.
  • За это же время GPT-3.5 улучшил свои результаты в трёх задачах из четырех (кроме программирования, в котором стал хуже).
  • Если сравнивать июньские результаты GPT-4 и GPT-3.5 между собой, видно, что GPT-4 с половиной задач справляется лучше, с другой – хуже.

Эксперимент наглядно продемонстрировал, что одна и та же языковая модель стечением времени может хуже справляться с задачами и давать совершенно другие ответы. Невыясненными остаются вопросы, что именно заставляет ответы деградировать и могут ли изменения, направленные на улучшение модели в одном из аспектов нарушить ее работу в другом.

Исследователи отмечают, что ChatGPT в версии GPT-4 или GPT-3.5 получил широкое распространение среди отдельных пользователей и компаний, результаты их применения уже могут повлиять на жизнь каждого. Ученые собираются провести более детальное исследование вопроса.

Другое исследование недавно выявило деградацию результатов работы генеративных моделей ИИ после нескольких итераций обучения на сгенерированных материалах.

Источник: Tom’s Hardware

Disqus Comments Loading...