
DeepSeek-R1 es un nuevo modelo de inteligencia artificial generativa desarrollado por la startup china DeepSeek. Ha causado un considerable revuelo al situarse como competidor de modelos punteros como OpenAI o1. Al mismo tiempo, DeepSeek-R1 es de código abierto y más rentable que la mayoría de los modelos de IA del mercado. Averigüemos cómo lo han conseguido los chinos. Y es realmente tan sencillo…
Inteligencia artificial de DeepSeek supera a ChatGPT en la clasificación de la App Store, Las acciones de Nvidia cayeron un 12%, y las de Meta y Microsoft un 4%. Las empresas europeas ASML y Tokyo Electron también sufrieron pérdidas También hubo casos relacionados con la IA y la minería de criptomonedas. Y esto no es todo lo que la IA china ha conseguido hacer en sólo una semana.
Según datos consultora Preqin, la inversión de EE.UU. en inteligencia artificial en 2023 era seis veces superior a la de China, ascendiendo a 26.600 millones de dólares frente a 4.000 millones. Cómo es posible que China haya conseguido superar a los estadounidenses en menos de dos años?
OpenAI y Google no revelaron el coste exacto del entrenamiento de modelos de IA (que es la parte más difícil y laboriosa del trabajo), como GPT-4 y Gemini. Pero es obvio que se trata de un negocio terriblemente caro. Cuando OpenAI lanzó GPT-3 en 2020, el proveedor de la nube Lambda sugerencia según los informes, entrenar este modelo con 175 millones de parámetros costó más de 4,6 millones de dólares utilizando la instancia en la nube Tesla V100. OpenAI no revela el tamaño de GPT-4, que lanzó hace un año, pero los informes sugieren que tiene entre 1 billón y 1,8 billones de parámetros.
Además, el CEO de OpenAI, Sam Altman, estimó vagamente el coste de la formación en «más de» 100 millones de dólares. El consejero delegado de Anthropic, Dario Amodei sugerenciaque «para 2025 podemos tener un modelo con un valor» de 10.000 millones de dólares.
InformeLa evaluación técnica de Epoch AI de mayo de 2024 mostró que el volumen de cálculos de entrenamiento de los modelos avanzados de IA crece entre 4 y 5 veces al año. Así, según las estimaciones medias, el coste de formación de los modelos de IA más caros alcanzará los 140.000 millones de dólares en 2030 (sin contar los salarios de los investigadores).
Y esto es un poco sobre el tiempo de estudio en sí. Si tuviéramos que utilizar Máquina de exaflopsluego GPT-3 (con 175.000 millones de parámetros) con una complejidad de aprendizaje de aproximadamente 3,14×10²³, luego Era necesario tardaría 314.000 segundos de ciclos computacionales en completar el entrenamiento con 300.000 millones de tokens
Un token es una unidad de texto que un modelo utiliza para procesar información. En el contexto del lenguaje natural, puede ser una palabra, parte de una palabra, carácter o signo de puntuación. Esto equivale aproximadamente a 3,5 días.
Si OpenAI utilizó GPUs Nvidia V100 en su superordenador, entonces para completar el entrenamiento GPT-4 necesita unos 5-6 meses.
En otras palabras, el proceso más costoso, complejo y largo de la creación de un modelo es la preparación de los datos con los que se entrenará.
Y aquí es donde entra DeepSeek, que afirma haber desarrollado la V3 en sólo 2 meses y haber gastado sólo 5,6 millones de dólares. Al mismo tiempo, mientras que las principales empresas utilizan hasta 16.000 circuitos integrados, los chinos sólo emplean unos 2.000 chips NVIDIA H800 PCIe. Y algunas versiones de los modelos DeepSeek pueden ejecutarse localmente. ¿Cómo es posible?
Contenido
Tecnología y principios de funcionamiento de DeepSeek R1
Todo empezó con el lanzamiento del modelo de código abierto DeepSeek-Coder en noviembre de 2023, seguido de — DeepSeek-LLM, que también podía generar texto. En abril de 2024, se publicó una versión actualizada de DeepSeek-Coder llamada DeepSeek-Math. Ese mismo año, se publicaron dos actualizaciones de DeepSeek-LLM: V2 y V2.5. En noviembre se publicó una versión preliminar de DeepSeek R1, basada en DeepSeek-V3-Base. A finales de año, se publicó DeepSeek-V3 — una actualización de DeepSeek-V2, — y sobre su base se creó DeepSeek R1, que causó sensación a principios de 2025.
Así funciona el ME
La arquitectura del ME (que, por cierto, pueden formar parte de agentes de IA) consta de varios expertos independientes en redes neuronales especializados en distintos aspectos del tratamiento de datos. Los principales componentes de esta arquitectura:
Red de compuertas
- Un módulo especial que determina qué expertos se activarán para cada solicitud individual.
- La red de calificación analiza los datos de entrada y los distribuye entre varios expertos.
Expertos
- Se trata de redes neuronales independientes que se entrenan para procesar determinados tipos de datos o realizar ciertas tareas.
- Pueden especializarse, por ejemplo, en el reconocimiento de patrones de voz, el análisis de conexiones lógicas o la generación de textos.
Combinación de resultados (suma ponderada)
- Después de que los expertos realicen sus cálculos, sus resultados se combinan en la respuesta final del modelo.
Así, MoE utiliza sólo una fracción de los expertos en el cómputo, lo que reduce el coste de la inferencia (operación y razonamiento del modelo). Además, los expertos pueden especializarse en distintos tipos de tareas, lo que hace que MoE sea más potente que los modelos transformadores tradicionales (como ChatGPT). Además, aumentar el número de expertos no requiere un incremento significativo de los costes de formación. Sin embargo, cuando se utiliza MoE, es necesario configurar adecuadamente la red de compuertas para evitar el uso excesivo de algunos expertos cuando no es necesario. Aunque sólo se active una parte de los expertos, todo el modelo debe almacenarse en memoria.
DeepSeek R1 utiliza una arquitectura MoE con 64 expertos, de los cuales sólo 2 ó 4 se activan durante el procesamiento de cada consulta.
Otra característica importante de DeepSeek R1 es su capacidad para generar una «Cadena de Pensamiento» (CoT) antes de generar una respuesta. Este enfoque permite al modelo mejorar la precisión y la lógica de sus respuestas, especialmente en tareas complejas que requieren un razonamiento de varios pasos.
Curiosamente, DeepSeek-R1 se entrenó utilizando el aprendizaje por refuerzo sin una etapa preliminar de ajuste fino supervisado. Este enfoque permitió al modelo desarrollar habilidades de razonamiento y toma de decisiones basadas en la retroalimentación, haciéndolo capaz de realizar inferencias lógicas complejas y generar textos coherentes.
Para aumentar la eficacia y reducir los requisitos informáticos, los desarrolladores utilizaron un método de destilación que consiste en crear versiones simplificadas del modelo. Éstas conservan las principales características del original, pero tienen menos parámetros. En concreto, crearon modelos basados en Llama (LLM de Meta AI) y Qwen (LLM de Alibaba) con 32.000 y 70.000 millones de parámetros.
Las versiones destiladas pueden implantarse localmente en su propio hardware:
- DeepSeek-R1-Distill-Qwen-1.5B — se ejecuta en una sola tarjeta gráfica (versiones para interfaces gráficas Ollama y LM studio).
- DeepSeek-R1-Distill-Qwen-7B — Se requiere un mínimo de 20 GB de memoria de vídeo.
- DeepSeek-R1-Distill-Qwen-32B — Funciona de forma óptima con 2-4 GPUs.
Existen otras versiones que puede encontrar y descargar en este enlace.
DeepSeek vs. OpenAI vs. Anthropic vs. Google
DeepSeek R1 suele compararse con el modelo OpenAI o1. En términos de rendimiento, muestra resultados similares en tareas matemáticas, de codificación y de razonamiento. Sin embargo, el modelo chino consigue estos resultados a un coste mucho menor. Utilizar DeepSeek R1 cuesta unos 0,55 dólares por millón de tokens, mientras que OpenAI o1 cuesta unos 15 dólares por el mismo volumen.
Cómo hacerlo dijo Según Andriy Nikonenko, de Machine Learning & Data Science en Turnitin, pruebas independientes han demostrado que GPT-4o1 es ligeramente superior a DeepSeek-R1. Las últimas versiones de Anthropic Claude Sonnet 3.5 y Google Gemini 2.0 son mejores que DeepSeek-V3.
Al mismo tiempo, DeepSeek-R1 y V3 son sólidos modelos de código abierto que establecen un nuevo punto de referencia para LLM y superan a los modelos LLaMA. Además, R1 puede convertirse en un nuevo punto de referencia para los modelos de razonamiento de código abierto, haciendo más accesible la IA de producción de bajo coste.
Todos «a favor» y «en contra»
Empecemos por lo bueno:
- DeepSeek-R1 es un modelo de código totalmente abierto con licencia MIT, lo que permite a los desarrolladores utilizarlo, modificarlo e integrarlo libremente en sus proyectos.
- El precio. El coste de utilización sigue estando por encima de la competencia.
- El modelo chino está disponible en diversas variantes, incluidas versiones destiladas simplificadas. Esto significa que si tienes varias NVIDIA GeForce RTX 3090, puedes ejecutar el modelo en casa. Y no tendrás que pagar a OpenAI por el acceso. Simplemente instala Ollama, descarga DeepSeek, ¡y ya está! Por ejemplo, DeepSeek 671B (con 671.000 millones de parámetros) pudieron lanzar en el servidor AmpereOne A192. El modelo funciona a una velocidad de 4 fichas por segundo. El consumo de energía es de sólo unos cientos de vatios, lo que lo hace bastante eficiente.
De este modo, los usuarios de a pie pueden disfrutar de una competencia que hace más accesible la tecnología. El reciente lanzamiento del modelo AI Sky-T1que también es capaz de razonar y cuesta sólo 450 dólares, ha demostrado que los modelos potentes pueden ser rentables.
La introducción de DeepSeek-R1 empujó a OpenAI a abrir el acceso general a modelos potentes y reducir el precio de algunos servicios.
Y ahora las malas noticias.
No olvide que DeepSeek-R1 es un modelo de inteligencia artificial procedente de China. Por lo tanto, debes tener cuidado al usarlo. Los gadgets chinos han sido sorprendidos en repetidas ocasiones robando información de sus propietarios. Como era de esperar, a DeepSeek tampoco le va bien. Recientemente, Wiz Research descubiertoLa base de datos de DeepSee, que estaba abierta al público en Internet, no estaba debidamente protegida. Esto permitía a cualquiera acceder a más de un millón de registros, incluido el historial de chat de los usuarios, las claves API y otros parámetros del sistema.
Y lo que es más importante, esta vulnerabilidad permitía un control total de la base de datos y una potencial escalada de privilegios dentro del entorno de DeepSeek, sin ningún mecanismo de autenticación o protección frente al mundo exterior.
Los investigadores de Wiz descubrieron la vulnerabilidad al detectar los puertos 8123 y 9000 abiertos en los servidores de DeepSeek, que apuntaban a una interfaz de acceso público a la base de datos ClickHouse. Tras informar del problema, DeepSeek cerró el acceso a las interfaces. Sin embargo, se desconoce cuántos datos fueron copiados por personas no autorizadas.
Además, algunos estudios han demostrado que DeepSeek-R1 puede difundir información acorde con la postura oficial de Pekín y no siempre proporciona datos precisos. DeepSeek evita respuestas al 85% de las preguntas sobre «temas sensibles» relacionados con China.
Por ejemplo, al tratar temas políticamente delicados como los sucesos de la plaza de TiananmenLos sucesos de la plaza de Tiananmen de 1989 fueron una serie de manifestaciones en China que duraron del 15 de abril al 4 de junio de 1989, con los estudiantes como principales participantes. Los sucesos también son conocidos como los «Sucesos del 4 de junio en China» y la «Masacre de la Plaza de Tiananmen». El más notorio fue la violenta dispersión de los manifestantes el 4 de junio con el uso de unidades del ejército, que se saldó con la muerte de miles de manifestantes o el estatus de Taiwán, el modelo puede reflejar un sesgo o evitar responder (como se ve en la captura de pantalla de abajo).
Además, preocupa la privacidad de los datos de los usuarios. Ya hay información de que DeepSeek recopila datos de los usuariosincluido el hardware: direcciones IP, modelos de teléfono, idioma, incluso «patrones de pulsación de teclas o» ritmos. Y luego lo envía a servidores en China.
Además, tambiény cuando se lanzó DeepSeek-V3, hubo sospechas de robo de datos de OpenAI. Durante las pruebas, el modelo chino de IA se autodenominó ChatGPT. Más tarde, uno de los desarrolladores de ChatGPT declaró que DeepSeek utiliza datos de OpenAI para disciplinar. Además, el antiguo desarrollador de Meta Yangshun Tai observó sospechosa compatibilidad de las bibliotecas DeepSeek y OpenAI. Así, la empresa china se ahorró semanas de desarrollo de las bibliotecas cliente de Node.js y Python simplemente utilizando las bibliotecas de OpenAI.
Conviene recordar que DeepSeek es un actor relativamente nuevo en el campo de la inteligencia artificial. Según Wikipedia, se fundó entre abril y mayo de 2023. La estrategia de contratación de la empresa se centra en la aptitud técnica más que en la experiencia laboral, lo que da lugar a una plantilla formada principalmente por recién licenciados o desarrolladores con carreras menos consolidadas en IA.
La noticia de los beneficios técnicos y financieros de los modelos de IA de DeepSeek ha llevado a muchas organizaciones y startups a apresurarse a implantar estas herramientas en sus productos. Sin embargo, olvidaron que estas medidas también implican la transferencia de datos confidenciales. Y esto requiere un alto grado de confianza…
La carrera de la inteligencia artificial: EE.UU. contra China (y en algún lugar, la UE)
En 1956 se acuñó por primera vez el término «inteligencia artificial» (IA) en la Conferencia de Dartmouth (Estados Unidos). Este evento se convirtió en el punto de partida de la investigación activa en este campo. Por cierto, a esta conferencia debemos la aparición del test de Turing. Alan Turing, matemático británico, propuso la idea de una prueba que permitiera determinar si una máquina puede demostrar un comportamiento inteligente indistinguible del humano.
Así, en 2017, China anunció su plan de convertirse en el líder mundial en IA para 2030. Las importantes inyecciones financieras en investigación y desarrollo de este nicho, así como el apoyo del gobierno, contribuyeron a un rápido progreso. Las empresas chinas Baidu, Alibaba (que incluye la conocida AliExpress) y Tencent han empezado a desarrollar tecnologías de IA, y el gobierno está introduciendo la IA en diversos ámbitos, como la seguridad y la sanidad.
Al final de su presidencia, Joe Biden firmó un decreto para facilitar la creación más rápida de centros de datos informáticos y otras infraestructuras para el desarrollo de la IA en Estados Unidos. Cuando Donald Trump llegó al poder en 2025, declaró su intención de convertir a EE.UU. en líder en tecnologías de IA. Ya ha empezado a un proyecto llamado Stargate liderado por OpenAI, el conglomerado japonés SoftBank y Oracle. Prevé inversiones de 500.000 millones de dólares en el desarrollo de infraestructuras de inteligencia artificial (IA) en EE.UU. y la construcción de 10 centros de datos en Texas en los próximos 4 años, a los que seguirán otros estados.
Y sólo un par de semanas después, se lanzó DeepSeek R1. Porque este modelo es capaz de hacer lo mismo que o1, pero gratis, OpenAI se ve obligada a plantearse reducir a la mitad el coste de la suscripción a ChatGPT Plus: a 10 dólares. En el contexto de una carrera cada vez más reñida con China, OpenAI ha concedido incluso a las agencias gubernamentales estadounidenses acceso especial a sus modelos con infraestructura dedicada: ChatGPT Gov.
Y entonces llegó el segundo golpe. El gigante chino Alibaba publicado su propio modelo de IA generativa llamado Qwen2.5-Max. Afirma que es mejor que DeepSeek V3.
Mientras tanto, la Unión Europea intenta seguir el ritmo de sus competidores. En 2023, la Ley de Inteligencia Artificial de la UE (AI Act), que entró en vigor el 1 de agosto. Establece normas para el desarrollo y uso de la IA destinadas a garantizar la seguridad y la ética de las tecnologías. En cuanto a la carrera de la tecnología de IA, mientras EE.UU. y China invierten activamente y muestran resultados, la UE acaba de lanzar un programa de «simplificación» para reducir la burocracia y estimular la innovación.
A finales de enero de 2025 publicado el documento de la Comisión Europea titulado «Brújula de Competitividad», que establece el plan de desarrollo económico de la UE para los próximos 5 años, incluidas medidas destinadas a desarrollar tecnologías «verdes», inteligencia artificial y computación cuántica. Propone crear «Gigafactorías de IA» que permitirán a startups e investigadores entrenar y desarrollar modelos. Otra estrategia se centrará en el desarrollo de esta tecnología de IA en sectores como la fabricación, la automoción y los servicios financieros. Las propuestas también incluyen iniciativas destinadas a desarrollar la biotecnología, la robótica y la tecnología espacial.
La ejecutiva de la UE, Ursula von der Leyen, subrayó que el modelo empresarial de la UE en los últimos 20-25 años se ha basado en «mano de obra barata de China, probablemente energía barata de Rusia» y «en parte en la externalización de la seguridad» pero «esos días han terminado».
30 de enero Comisión Europea decidió el quinto Programa de Trabajo anual del Fondo Europeo de Defensa (FED 2025), que asigna más de mil millones de euros a proyectos conjuntos de investigación y desarrollo en el ámbito de la defensa. El Programa de Trabajo del FED 2025 abarca el reto tecnológico de la inteligencia artificial, así como una convocatoria de investigación y desarrollo (I+D) «para fomentar las sinergias entre la innovación civil y de defensa, centrada este año en el espacio, la resiliencia energética, el combate terrestre y el ciberespacio».
La carrera de la IA gana impulso día a día. Mientras Estados Unidos lidera la investigación básica y el desarrollo de tecnologías innovadoras, China se centra en la implantación a gran escala de la IA en diversos sectores, aprovechando su gran cantidad de datos y su rápida adopción. La UE, como de costumbre, va a la zaga.
Spelling error report
The following text will be sent to our editors: