В останні місяці в мережі зростає невдоволення зниженням якості відповідей ChatGPT. Група вчених зі Стенфорда та Каліфорнійського університету вирішила визначити, чи справді відбувається деградація видачі у мовній моделі GPT-4. Дослідження підтвердило цей факт: наприклад, точність відповіді на запитання «Чи є це простим числом?» впала з 97,6% до 2,4% з березня по червень.

Дослідницька група розробила завдання для вимірювання якісних аспектів роботи ChatGPT на основі моделей GPT-4 та GPT-3.5. Чатбот перевірили за такими критеріями:

Розв’язання математичних завдань
Відповіді на делікатні питання
Генерація коду
Візуальне сприйняття

Порівняльний результат представлений у діаграмі:

У червні GPT-4 на всі питання (крім візуального завдання) відповів гірше порівняно з березневим результатом.
За цей же час GPT-3.5 покращив свої результати у трьох задачах з чотирьох (крім програмування, в якому став гіршим).
Якщо порівнювати червневі результати GPT-4 та GPT-3.5 між собою, видно, що GPT-4 з половиною завдань справляється краще, з іншою – гірше.

Експеримент наочно продемонстрував, що та сама мовна модель з часом може гірше справлятися з завданнями та давати зовсім інші відповіді. Нез’ясованими залишаються питання, що примушує відповіді деградувати та чи можуть зміни, спрямовані на поліпшення моделі в одному з аспектів порушити її роботу в іншому.

Дослідники відзначають, що ChatGPT в версії GPT-4 або GPT-3.5 набув широкого поширення серед окремих користувачів та компаній, результати його роботи вже можуть вплинути на життя кожного. Вчені мають намір провести більш детальне дослідження питання.

Інше дослідження нещодавно виявило деградацію результатів роботи генеративних моделей ШІ після кількох ітерацій навчання на згенерованих матеріалах.