Кадр з фільму «Я, робот» / 20th Century Fox
El laboratorio chino de inteligencia artificial DeepSeek lanzó el modelo de razonamiento R1, que duplicó o incluso superó los resultados de o1 de OpenAI en algunas pruebas.
Entre las ventajas — DeepSeek R1 está disponible gratuitamente con un límite de hasta 50 mensajes por día. Después de registrarse o autenticarse, es necesario seleccionar la opción «DeepThink».
Según DeepSeek, R1 supera a o1 en las pruebas AIME, MATH-500 y SWE-bench Verified (el primero compara el modelo con otros para evaluar la eficacia, el segundo es una colección de problemas de texto y el tercero se centra en tareas de programación).
Los modelos de razonamiento se distinguen por su capacidad para verificar eficazmente los hechos y evitar algunas «trampas» en las que usualmente «se atascan» los modelos convencionales, además de mostrar resultados más fiables en ciencias naturales, problemas físicos y matemáticos. Sin embargo, en comparación con los estándares, los modelos de razonamiento necesitan un poco más de tiempo para encontrar una solución.
DeepSeek R1 contiene 671 mil millones de parámetros, aunque también hay versiones «más simples» que tienen desde 1.5 mil millones hasta 79 mil millones de parámetros — mientras que el más pequeño puede funcionar incluso en un PC, las versiones más potentes necesitarán equipo robusto (aunque también está disponible a través de la API de DeepSeek a un precio un 90% más bajo que el OpenAI o1).
Considerando que DeepSeek R1 es un modelo chino, también hay ciertos inconvenientes. Su funcionamiento debe ser aprobado por el regulador chino, que debe asegurarse de que las respuestas del modelo «encarnen los valores socialistas fundamentales» (es decir, R1 no responderá preguntas sobre la Plaza de Tiananmén o la autonomía de Taiwán).
Es interesante que uno de los modelos anteriores de IA de DeepSeek también superó a muchos competidores en pruebas populares (incluido en programación y escritura de ensayos), sin embargo, tenía una característica más interesante — creía que era ChatGPT (probablemente porque se entrenó con datos de su competidora estadounidense).
Fuente: TechCrunch