ChatGPT під час дослідження провалив більш як половину питань із програмування

Опублікував Юрій Орос

Генеративний штучний інтелект часто помиляється, навіть розробники не рекомендують їх для створення коду програм. Щоб перевірити наскільки, команда Університету Перд’ю в США провела дослідження, передає TechSpot.

Загалом ChatGPT задали 517 питань із Stack Overflow (популярний ресурс питань і відповідей для професійних програмістів та ентузіастів). Відповіді оцінювали не лише за правильністю, але й за послідовністю, вичерпністю та лаконічністю.

Інструмент OpenAI впорався із завданням далеко не відмінно. ChatGPT дав лише 48% правильних відповідей, а 77% описали як багатослівні. При цьому стиль та якість визначень часто переконували волонтерів у правильності, хоча це було не так.

Ми помітили, що лише тоді, коли помилка у відповіді ChatGPT очевидна, користувачі можуть її ідентифікувати.

Однак коли помилка більш комплексна, потребує додаткових знань або вивчення документації, користувачі часто не здатні визначити помилку, або недооцінюють її ступінь.

Навіть якщо відповідь ChatGPT була явно неправильною, двоє з 12 учасників все одно віддавали перевагу їй через приємний, впевнений і позитивний тон ШІ. Його вичерпність і підручниковий стиль написання також сприяли тому, що фактично неправильна відповідь здавалася правильною.