«Двійку поки ставлю олівцем!» (c)

OpenAI розробила окрему модель CriticGPT, яка шукатиме помилки у відповідях ChatGPT — початково «вчитель» зосередиться на фрагментах кода і, як зазначається, стане лише допоміжним інструментом для фахівців-людей, що перевірятимуть тексти чатбота вручну.

CriticGPT, створений на основі сімейства мовних моделей GPT-4, додатково навчався на наборі зразків коду із навмисно вставленими помилками й у перших тестах показав себе кращим за людей у 63% випадків. Він нібито писав кращу та детальнішу критику, частіше знижуючи частоту так званих галюцинацій у чатбота.

Під час навчання CriticGPT успішно знаходив як помилки, вставлені навмисно людьми, так і помилки, які додавав ChatGPT початково.

Дослідники OpenAI також створили нову техніку Force Sampling Beam Search (FSBS), яка допомагає CriticGPT писати більш детальні огляди коду і може бути збалансована залежно від потреб навчання моделі-критика.

Цікаво, що на одному з етапів експерименту CriticGPT дали перевірити відповіді, які люди раніше позначили як ідеальні — і він виявив помилки у 24% випадків (згодом їх підтвердили рецензенти). OpenAI вважає, що це демонструє потенціал моделі для перевірки завдань, не пов’язаних з кодом, і підкреслює її здатність вловлювати «найтонші помилки», які навіть ретельна людська перевірка може пропустити.

Попри перспективні результати CriticGPT, як і всі моделі ШІ, має обмеження. Він тренувався на відносно коротких відповідях ChatGPT, тож поки не готовий до довгих та складніших завдань.