ChatGPT під час дослідження провалив більш як половину питань із програмування

Опубликовал
Юрій Орос

Генеративний штучний інтелект часто помиляється, навіть розробники не рекомендують їх для створення коду програм. Щоб перевірити наскільки, команда Університету Перд’ю в США провела дослідження, передає TechSpot.

Загалом ChatGPT задали 517 питань із Stack Overflow (популярний ресурс питань і відповідей для професійних програмістів та ентузіастів). Відповіді оцінювали не лише за правильністю, але й за послідовністю, вичерпністю та лаконічністю.

Інструмент OpenAI впорався із завданням далеко не відмінно. ChatGPT дав лише 48% правильних відповідей, а 77% описали як багатослівні. При цьому стиль та якість визначень часто переконували волонтерів у правильності, хоча це було не так.

Онлайн-курс "Excel та Power BI для аналізу даних" від robot_dreams.
Навчіться самостійно аналізувати й візуалізувати дані, знаходити зв’язки, розуміти кожен аспект отриманої інформації та перетворювати її на ефективні рішення.
Детальніше про курс

Ми помітили, що лише тоді, коли помилка у відповіді ChatGPT очевидна, користувачі можуть її ідентифікувати.

Однак коли помилка більш комплексна, потребує додаткових знань або вивчення документації, користувачі часто не здатні визначити помилку, або недооцінюють її ступінь.

Навіть якщо відповідь ChatGPT була явно неправильною, двоє з 12 учасників все одно віддавали перевагу їй через приємний, впевнений і позитивний тон ШІ. Його вичерпність і підручниковий стиль написання також сприяли тому, що фактично неправильна відповідь здавалася правильною.

Disqus Comments Loading...