Рубрики NoticiasSuave

El modelo de IA Claude 3 supera por primera vez el GPT-4 en el Chatbot Arena

Опубликовал
Вадим Карпусь

El Gran Modelo de Lenguaje (LLM) Claude 3 Opus de Anthropic ha superado por primera vez al GPT-4 de OpenAI por Chatbot Arena.

«El Rey ha muerto», — escribió el desarrollador de software Nick Dobos en Twitter en un post en el que comparaba GPT-4 Turbo y Claude 3 Opus.

Chatbot Arena es una plataforma abierta de crowdsourcing para evaluar grandes modelos de voz. La calificación se basa en un gran número de revisiones humanas del rendimiento de los modelos utilizando el sistema de calificación Elo. Cómo funciona la prueba — las personas introducen una consulta y eligen la mejor respuesta entre varias opciones de diferentes modelos. Se utilizan miles de pruebas de usuarios para recopilar y clasificar los mejores modelos.

La tabla de clasificación de Chatbot Arena se lanzó el 3 de mayo de 2023, y GPT-4 se incluyó en la clasificación el 10 de mayo. Desde entonces, diversas variaciones de GPT-4 han ocupado sistemáticamente los primeros puestos de la tabla. Hasta ahora. Por eso llama la atención la aparición de un nuevo líder en este campo. Además, uno de los modelos más pequeños de Anthropic, el Haiku, también ha llamado la atención por su rendimiento en la clasificación.

«Por primera vez, los mejores modelos disponibles — Opus para tareas complejas, Haiku para costes y eficiencia — están disponibles en un proveedor que no es de OpenAI,» afirmó el investigador independiente de IA Simon Willison. «Es tranquilizador — todos nos beneficiamos de la diversidad de los principales proveedores en este ámbito. Pero la GPT-4 ya existe desde hace más de un año, y ha hecho falta este año para que alguien se ponga al día».

Tras Claude 3 Opus y dos versiones de GPT-4, aparece en la clasificación Bard (Gemini Pro) de Google. Sin embargo, aunque la diferencia de puntuación Elo entre las tres primeras posiciones es insignificante (2-3 puntos), Bard ya está a 45 puntos del tercer puesto. Todos los demás competidores obtuvieron menos de 1200 puntos.

Fuente: arstechnica

Los comentarios de Disqus están cargando....