Засновник турніру K Prize і ШІ-стартапу Perplexity Енді Конвінські / X, Depositphotos
Состоялся первый в мире турнир по вайбкодингу
Турнир K Prize — это проект некоммерческой организации Laude Institute, основанный соучредителем Databricks и ИИ-стартапа Perplexity Энди Конвински. Основная его особенность заключается в том, что разработчики решают задачи из GitHub с помощью ИИ-модели (но задачи новые, чтобы системы еще не имели возможности подогнать под тест).
«Мы рады, что создали действительно сложный бенчмарк», — говорит Конвински. «Бенчмарки должны быть сложными, если они имеют значение. Результаты были бы другими, если бы крупные лаборатории приняли участие со своими самыми большими моделями. Но в этом и заключается суть. K Prize работает офлайн с ограниченными вычислительными ресурсами, поэтому предпочитает меньшие и открытые модели. Мне это нравится. Это уравнивает условия игры».
Подобно более известной системе SWE-Bench, K Prize проверяет модели на реальных задачах с GitHub, чтобы узнать, насколько хорошо те справляются с реальными проблемами программирования. Впрочем, если SWE-Bench использует фиксированный набор задач, которые модели могут изучить заранее, то K Prize создан, как версия, что избегает предварительного ознакомления с тестовыми задачами. Турнир имеет четкие дедлайны — первый раунд подач модели завершился 12 марта, тогда как тесты составлялись исключительно на основе GitHub-запросов, созданных после этой даты.
Конвински обещает выплату до $1 млн за модели с открытым кодом, которые смогут решить 90% задач. Призовой фонд первого этапа составлял $50 тыс.
Результат Андрадо в 7,5% разительно контрастирует с показателями SWE-Bench, где в самом простом тесте Verified наивысший балл достигает 75%, а в самом сложном Full — 34%. Очевидно, возникают вопросы об эффективности кодирования с ИИ в реальном мире. Поэтому для Конвински этот конкурс некий ориентир:
«Если прислушаться к шумихе, создается впечатление, что нам следует обратиться к врачам или юристам с искусственным интеллектом, но это просто неправда», — говорит он. «Если мы не сможем получить более 10% результата, то для меня это проверка реальности».
Источник: TechCrunch
Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.
Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.