Los modelos de IA más avanzados sólo han resuelto el 2% de los problemas matemáticos complejos desarrollados por los principales matemáticos del mundo.
Epoch AI Research Institute ha presentado un nuevo conjunto de pruebas FrontierMath que requiere un nivel de doctorado en conocimientos matemáticos. En su desarrollo han participado profesores de matemáticas, entre ellos ganadores de la Medalla Fields
Mientras que en pruebas anteriores MMLU
«Estas tareas son extremadamente difíciles. En la actualidad, solo pueden resolverse con la ayuda de un experto en la materia o un estudiante de doctorado en un campo relacionado, combinada con la IA moderna y otras herramientas algebraicas», — afirmó Terence Tao, ganador del Premio Fields 2006.
En el estudio se probaron seis de los principales modelos de IA. Gemini 1.5 Pro (002) de Google y Claude 3.5 Sonnet de Anthropic mostraron el mejor resultado con un 2% de respuestas correctas. Los modelos o1-preview, o1-mini y GPT-4o de OpenAI consiguieron resolver el 1% de las tareas, mientras que Grok-2 Beta de xAI no logró resolver ni un solo problema.
FrontierMath abarca una gran variedad de áreas matemáticas, desde la teoría de números hasta la geometría algebraica. Todas las tareas de prueba están disponibles en Sitio web de Epoch AI. Los desarrolladores han creado tareas únicas que no están presentes en los datos de entrenamiento de los modelos de IA.
Los investigadores observan que, incluso cuando el modelo daba la respuesta correcta, no siempre indicaba el razonamiento correcto: a veces el resultado podía obtenerse mediante simulaciones sencillas sin una comprensión matemática profunda.
Fuente: Livescience