Новини IT-бізнес 25.07.2025 comment views icon

Переможець першого у світі турніру з вайбкодингу розв’язав лише 7,5% задач

author avatar

Катерина Даньшина

Редактор новин

Переможець першого у світі турніру з вайбкодингу розв’язав лише 7,5% задач
Засновник турніру K Prize і ШІ-стартапу Perplexity Енді Конвінські / X, Depositphotos

Відбувся перший у світі турнір з вайбкодингуТермін «вайбкодинг», який запропонував у лютому співзасновник OpenAI Андрей Карпати, описує легкий та невимушений спосіб кодування із ШІ — коли програміст не просто пише рядки коду, а описує текстово те, що хотів би створити, штучному інтелекту, тоді як той вже генерує готовий результат. під назвою K Prize. На початковому етапі переможцем став бразильський інженер Едуардо Роша де Андрадо, який вирішив лише 7,5% задач (9 зі 120).

Турнір K Prize  — це проєкт некомерційної організації Laude Institute, започаткований співзасновником  Databricks та ШІ-стартапу Perplexity Енді Конвінські. Основна його особливість полягає в тому, що розробники розв’язують задачі з GitHub з допомогою ШІ-моделі (але задачі нові, аби системи ще не мали можливості підігнати під тест).

«Ми раді, що створили справді складний бенчмарк», — каже Конвінські. «Бенчмарки мають бути складними, якщо вони мають значення. Результати були б іншими, якби великі лабораторії взяли участь зі своїми найбільшими моделями. Але в цьому і полягає суть. K Prize працює офлайн з обмеженими обчислювальними ресурсами, тому надає перевагу меншим і відкритим моделям. Мені це подобається. Це зрівнює умови гри».

Подібно до відомішої системи SWE-Bench, K Prize перевіряє моделі на реальних задачах з GitHub, аби дізнатись, наскільки добре ті справляються з реальними проблемами програмування. Утім, якщо SWE-Bench використовує фіксований набір задач, які моделі можуть вивчити наперед, то K Prize створено, як версію, що уникає попереднього ознайомлення з тестовими задачами. Турнір має чіткі дедлайни — перший раунд подач моделі завершився 12 березня, тоді як тести складалися виключно на основі GitHub-запитів, створених після цієї дати.

Конвінські обіцяє виплату до $1 млн за моделі з відкритим кодом, які зможуть вирішити 90% задач. Призовий фонд першого етапу складав $50 тис.

Вайбкодер «без навичок програмування» переміг на IT-хакатоні з допомогою ШІ

 

Результат Андрадо у 7,5% разюче контрастує з показниками SWE-Bench, де у найпростішому тесті Verified найвищий бал сягає 75%, а в найскладнішому Full — 34%. Очевидно, виникають питання щодо ефективності кодування з ШІ в реальному світі. Тож для Конвінські цей конкурс такий собі орієнтир:

«Якщо прислухатися до галасу, складається враження, що нам слід звертатися до лікарів чи юристів зі штучним інтелектом, але це просто неправда», — каже він. «Якщо ми не зможемо отримати понад 10% результату, то для мене це перевірка реальності».

Джерело: TechCrunch

Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: