Победитель первого в мире турнира по вайбкодингу решил только 7,5% задач

Опубликовал Катерина Даньшина

Состоялся первый в мире турнир по вайбкодингуТермин «вайбкодинг», который предложил в феврале соучредитель OpenAI Андрей Карпаты, описывает легкий и непринужденный способ кодирования с ИИ — когда программист не просто пишет строки кода, а описывает текстово то, что хотел бы создать, искусственному интеллекту, тогда как тот уже генерирует готовый результат. под названием K Prize. На начальном этапе победителем стал бразильский инженер Эдуардо Роша де Андрадо, который решил лишь 7,5% задач (9 из 120).

Турнир K Prize — это проект некоммерческой организации Laude Institute, основанный соучредителем Databricks и ИИ-стартапа Perplexity Энди Конвински. Основная его особенность заключается в том, что разработчики решают задачи из GitHub с помощью ИИ-модели (но задачи новые, чтобы системы еще не имели возможности подогнать под тест).

«Мы рады, что создали действительно сложный бенчмарк», — говорит Конвински. «Бенчмарки должны быть сложными, если они имеют значение. Результаты были бы другими, если бы крупные лаборатории приняли участие со своими самыми большими моделями. Но в этом и заключается суть. K Prize работает офлайн с ограниченными вычислительными ресурсами, поэтому предпочитает меньшие и открытые модели. Мне это нравится. Это уравнивает условия игры».

Подобно более известной системе SWE-Bench, K Prize проверяет модели на реальных задачах с GitHub, чтобы узнать, насколько хорошо те справляются с реальными проблемами программирования. Впрочем, если SWE-Bench использует фиксированный набор задач, которые модели могут изучить заранее, то K Prize создан, как версия, что избегает предварительного ознакомления с тестовыми задачами. Турнир имеет четкие дедлайны — первый раунд подач модели завершился 12 марта, тогда как тесты составлялись исключительно на основе GitHub-запросов, созданных после этой даты.

Конвински обещает выплату до $1 млн за модели с открытым кодом, которые смогут решить 90% задач. Призовой фонд первого этапа составлял $50 тыс.

Результат Андрадо в 7,5% разительно контрастирует с показателями SWE-Bench, где в самом простом тесте Verified наивысший балл достигает 75%, а в самом сложном Full — 34%. Очевидно, возникают вопросы об эффективности кодирования с ИИ в реальном мире. Поэтому для Конвински этот конкурс некий ориентир:

«Если прислушаться к шумихе, создается впечатление, что нам следует обратиться к врачам или юристам с искусственным интеллектом, но это просто неправда», — говорит он. «Если мы не сможем получить более 10% результата, то для меня это проверка реальности».

Источник: TechCrunch

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.