
У травні цього року тридцать провідних математиків зі всього світу зібрались у Берклі в Каліфорнії, щоб позмагатись у математичних здібностях з чат-ботом o4-mini від OpenAI.
Упродовж двох днів математики змушували чат-бот на основі Великої мовної моделі вирішувати складні математичні задачі і були приголомшені результатом. o4-mini дуже швидко давала відповіді і розв’язання складних математичних завдань, демонструючи чи не професорський рівень.
«У мене є колеги, які буквально сказали, що ці моделі наближаються до математичного генія», — зазначив керівник зустрічі, математик з Університету Вірджинії Кен Оно.
Такі моделі як o4-mini більш легкі та гнучкі порівняно із попередніми. Вони навчені передбачати наступний результат у послідовності. o4-mini навчався на спеціалізованих наборах даних з потужним підкріпленням від фахівців.
Для оцінки ефективності o4-mini в OpenAI до цього звернулись до некомерційної організації Epoch AI, яка склала 300 математичних задач для проведення бенчмаркінгу LLM. Традиційні моделі ШІ змогли правильно відповісти лише на 2% завдань. Однак модель від OpenAI значно перевершила ці показники.
Epoch AI найняла Елліота Глейзера, який нещодавно отримав докторський ступінь з математики, для участі в новому співробітництві з бенчмарку FrontierMath у вересні 2024 року. Проєкт включав в себе велику кількість питань найрізноманітніших рівнів складності. Зокрема, перші три охоплювали завдання рівня бакалаврату, магістратури та дослідницького. У квітні 2025 року Глейзер встановив, що o4-mini здатна вирішити лише 20% завдань.
Після цього аналітик вирішив перевірити, як LLM справлятиметься з четвертим рівнем завдань, призначеним для академіків. Лише невелика група людей у світі була б здатна розробити такі питання, не кажучи вже про те, щоби відповісти на них. Математики, які брали участь, повинні були підписати угоду про нерозголошення, що вимагала від них спілкуватися виключно через програму обміну повідомленнями Signal.
Кожне завдання, яке не вдавалось вирішити o4-mini, гарантувало математику, що його запропонував $7,5 тис. Під час вирішальних зустрічей 30 провідних математиків були розділені на групи по 6 чоловік. Протягом двох днів вчені змагалися один з одним, придумуючи завдання, які вони могли вирішити, але які б поставили у глухий кут модель ШІ від OpenAI.
Як розповідає Кен Оно, він придумав задачу на рівні непоганої докторської дисертації з області питання щодо теорії чисел. Упродовж наступних 10 хвилин він спостерігав, як o4-mini розгортав вирішення і демонстрував хід власних міркувань. Перші кілька хвилин чат-бот витратив на вивчення літератури по темі. Після цього він вирішив більш просту задачу у якості тренування. Через п’ять хвилин o4-mini представив правильне, але зухвале рішення задачі, яку придумав Оно.
«Я не був готовий до такого протистояння з LLM. Я ніколи раніше не бачив таких міркувань у моделях. Саме так роблять вчені. Це лякає», — зізнається Кен Оно.
І хоча загалом математики знайшли десять задач, які виявились не під силу o4-mini, вони були вражені прогресом ШІ за останній рік. Йому потрібно було лише кілька хвилин, щоб виконати завдання, на яке в експерта-людини пішли б тижні чи місяці.
У підсумку математики дійшли висновку, що, ймовірно, доволі скоро моделі штучного інтелекту виявляться здатними вирішувати найскладніші завдання, які наразі не під силу навіть провідним світовим спеціалістам. У таком випадку математикам залишатиметься лише давати ШІ завдання і чекати на відповідь.
Джерело: LiveScience
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: