Aunque OpenAI o1 propuso el aprendizaje por refuerzo (RL), no rompió el círculo por varias razones. DeepSeek R1 resolvió el rompecabezas del RL e impulsó a toda la industria hacia un nuevo paradigma, ingresando verdaderamente en la segunda mitad de la inteligencia. Se han producido muchas discusiones en el mercado sobre la definición de DeepSeek. La próxima discusión valiosa es cómo jugar la carrera de la IA.
¿DeepSeek ha superado a OpenAI?
No hay duda de que DeepSeek ha superado a Meta Llama, pero todavía está muy por detrás de los actores de primera línea como OpenAI, Anthropic y Google. Por ejemplo, Gemini 2.0 Flash, potente y totalmente modal, cuesta menos que DeepSeek. El mundo exterior subestima las capacidades de los actores de primera línea representados por Gemini 2.0, que no ha sido de código abierto para lograr un efecto sensacional.
DeepSeek es emocionante, pero no se puede decir que sea una innovación a nivel de paradigma. Una descripción más precisa sería que ha abierto el código fuente del paradigma hasta entonces medio oculto de OpenAI o1, impulsando todo el ecosistema a una tasa de penetración muy alta.
Desde la perspectiva de los primeros principios, es difícil superar a los fabricantes de modelos de primer nivel en el marco de la arquitectura de la generación Transformer. También es difícil lograr superarlos siguiendo el mismo camino. Hoy, esperamos que alguien explore la próxima generación de arquitectura y paradigma inteligentes.

DeepSeek alcanzó a OpenAI y Anthropic en un año
¿DeepSeek abre un nuevo paradigma?
Como se mencionó anteriormente, estrictamente hablando, DeepSeek no inventó un nuevo paradigma.
Pero la importancia de DeepSeek radica en ayudar a que el nuevo paradigma del aprendizaje automático y el cálculo del tiempo de prueba ganen más popularidad. Si el lanzamiento inicial de o1 de OpenAI planteó un enigma para la industria, DeepSeek fue el primero en resolverlo públicamente.
Antes de que DeepSeek lanzara R1 y R1-zero, solo una pequeña cantidad de personas en la industria practicaban el aprendizaje automático y los modelos de razonamiento. Sin embargo, DeepSeek proporcionó una hoja de ruta para todos, lo que hizo que la industria creyera que hacerlo realmente puede mejorar la inteligencia. Esto ha impulsado enormemente la confianza y ha atraído a más investigadores de IA a recurrir a nuevos paradigmas de investigación.
Solo con la entrada de personas talentosas se puede producir innovación en algoritmos, y solo con la búsqueda de código abierto se pueden invertir más recursos informáticos. Después de DeepSeek, OpenAI, que originalmente no tenía previsto lanzar nuevos modelos, lanzó o3mini uno tras otro, y también se están considerando planes para seguir lanzando o3, y los modelos de código abierto. Anthropic y Google también acelerarán la investigación de RL. El avance de la industria del nuevo paradigma se ha acelerado gracias a DeepSeek, y los equipos pequeños y medianos también pueden probar RL en diferentes dominios.
Además, la mejora del modelo de razonamiento ayudará aún más a la implementación del agente. Los investigadores de IA ahora tienen más confianza en la investigación y exploración de agentes. Por lo tanto, también se puede decir que el modelo de razonamiento de código abierto de DeepSeek ha promovido una mayor exploración de agentes en la industria.
Si bien DeepSeek no inventó un nuevo paradigma, empujó a toda la industria hacia uno nuevo.
¿En qué se diferencia el enfoque tecnológico de Anthropic del de R1?
De la entrevista de Darío se desprende que la comprensión que tiene Anthropic del modelo de razonamiento/R-1 es algo diferente a la de la serie O. Darío cree que el modelo base y el modelo de razonamiento deberían ser un espectro continuo, en lugar de una serie de modelos independientes como OpenAI. Si solo se trabaja con la serie O, pronto se llegará al límite.
Siempre me he preguntado por qué las capacidades de codificación, razonamiento y agencia de Sonnet 3.5 mejoraron tanto de repente, pero 4o nunca los alcanzó.
Hicieron mucho trabajo de RL en la etapa de preentrenamiento del modelo base. El objetivo principal es mejorar el modelo base. De lo contrario, depender únicamente del RL para mejorar el modelo de razonamiento puede fácilmente consumir todos los beneficios.
La sensación que causó DeepSeek fue inevitable, pero también accidental.
Desde una perspectiva técnica, DeepSeek tiene los siguientes puntos destacados:
- Fuente abierta: El código abierto es muy importante. Después de que OpenAI se convirtiera en una empresa de código cerrado a partir de GPT-3, las tres empresas principales dejaron de revelar detalles técnicos, dejando un nicho de código abierto vacío. Sin embargo, Meta y Mistral no ocuparon esta posición. El ataque sorpresa de DeepSeek esta vez hizo que todo fuera sobre ruedas en el campo del código abierto.
Si le damos 100 puntos al sensacionalismo, 30 puntos irán a la mejora de la inteligencia y 70 puntos al código abierto. LLaMA también era de código abierto antes, pero no tuvo un efecto tan sensacionalista, lo que demuestra que el nivel de inteligencia de LLaMa no es suficiente.
- Barato: “Tu margen es mi oportunidad” cobra cada vez más valor.
- Networking + Centro de Formación Público : Estos dos puntos pueden brindar una buena experiencia de usuario a los usuarios. DeepSeek juega ambas cartas al mismo tiempo, lo que se puede decir que es una bomba de rey. La experiencia que brinda a los usuarios finales C es completamente diferente a la de otros Chatbots. En particular, la transparencia de CoT hace público el proceso de pensamiento del modelo. La transparencia puede hacer que los usuarios confíen más en la IA y promover la ruptura del círculo. Sin embargo, la aparición de DeepSeek debería haber tenido un gran impacto en Perplexity, pero el servidor de DeepSeek era inestable y el equipo de Perplexity respondió rápidamente y lanzó R-1, que a su vez se hizo cargo de una gran cantidad de usuarios de desbordamiento de DeepSeek R-1.
- Generalización RL: Aunque el RL fue propuesto por primera vez por OpenAI o1, su tasa de penetración no es alta debido a que varias operaciones se han mantenido semiocultas. DeepSeek R-1 ha promovido en gran medida el progreso del paradigma del modelo de razonamiento y ha mejorado enormemente su aceptación ecológica.
La inversión de DeepSeek en la exploración tecnológica es un factor determinante que hace que este logro inteligente merezca más atención y discusión, pero el momento del lanzamiento de DeepSeek R1 hace que esta sensación sea accidental:
En el pasado, Estados Unidos siempre ha dicho que está muy por delante en la investigación de tecnología básica, pero DeepSeek es originario de China, lo que también es un punto a destacar en sí mismo. En este proceso, muchos gigantes tecnológicos estadounidenses comenzaron a promover el argumento de que DeepSeek desafía la posición de Estados Unidos como pez gordo de la tecnología. DeepSeek participó pasivamente en la guerra de opinión pública;
Antes del lanzamiento de DeepSeek R1, el evento Stargate de OpenAI apenas había comenzado a gestarse. El contraste entre esta enorme inversión y la eficiencia de producción inteligente del equipo de DeepSeek era demasiado marcado, y era difícil no atraer la atención y el debate.
DeepSeek provocó la caída del precio de las acciones de Nvidia y provocó aún más la opinión pública. Ciertamente, no esperaban que se convertirían en el primer cisne negro del mercado de valores de EE. UU. en 2025;
El Festival de Primavera es un campo de entrenamiento para productos. En la era de Internet móvil, muchas súper aplicaciones explotaron durante el Festival de Primavera, y la era de la IA no es una excepción. DeepSeek R1 fue lanzado justo antes del Festival de Primavera. Lo que sorprendió al público fue su capacidad de creación de texto, en lugar de las habilidades de codificación y matemáticas enfatizadas durante el entrenamiento. Las creaciones culturales que son más identificables tienen más probabilidades de volverse virales.
¿Quién se ve perjudicado? ¿Quién se beneficia?
Los actores en este ámbito se pueden dividir en tres categorías: ToC, To Developer y To Enterprise (to Government):
- Índice: El chatbot es definitivamente el más afectado, con DeepSeek quitándole participación mental y atención a la marca, y ChatGPT no es la excepción;
- El impacto en los desarrolladores es muy limitado. Hemos visto a algunos usuarios comentar que R1 no es tan bueno como Sonnet después de usarlo. Los responsables de Cursor también dijeron que Sonnet sigue teniendo un rendimiento superior. Por lo tanto, una gran proporción de usuarios elige Sonnet y no hay una migración a gran escala.
- El negocio de To Enterprise y To Government se basa en la confianza y la comprensión de las necesidades. Los intereses de las grandes organizaciones a la hora de tomar decisiones son muy complejos y no es tan fácil migrar como los usuarios finales C.
Pensemos en esto desde otra perspectiva: código cerrado, código abierto y potencia informática:
A corto plazo, la gente pensará que OpenAI/Anthropic/Google de código cerrado se verán más afectados:
- El misterio de la tecnología se ha hecho público, y se ha desvelado el misterio más importante detrás de la publicidad de la IA;
- Más realista aún, el mercado cree que algunos de los clientes potenciales y el tamaño del mercado de estas empresas de código cerrado han sido arrebatados, y que el período de recuperación de la inversión en GPU se ha alargado;
- Como líder, OpenAI es el que más sufre. Su sueño anterior de mantener su tecnología en secreto y no abierta al público con la esperanza de ganar más premios tecnológicos es poco probable que se haga realidad.
Pero a mediano y largo plazo, las empresas con abundantes recursos de GPU seguirán beneficiándose. Por un lado, Meta, una empresa de segundo nivel, puede hacer un seguimiento rápido de los nuevos métodos, lo que hace que el gasto de capital sea más eficiente, por lo que Meta puede ser una gran beneficiaria. Por otro lado, se necesita más exploración para mejorar la inteligencia. El código abierto de DeepSeek ha llevado a todos al mismo nivel, y entrar en nuevas exploraciones requiere una inversión en GPU 10 veces o incluso más.
Desde el principio, la industria de inteligencia artificial, ya sea que se trate de desarrollar o aplicar inteligencia, está destinada a consumir una enorme potencia de procesamiento de la naturaleza física. Esto está determinado por leyes básicas y no se puede evitar por completo mediante la optimización técnica.
Por lo tanto, ya sea que se trate de explorar la inteligencia o de aplicarla, incluso si existen dudas a corto plazo, la demanda de potencia de cálculo a mediano y largo plazo explotará. Esto también explica por qué Musk comienza desde los primeros principios y xAI insiste en expandir el clúster. La lógica profunda detrás de xAI y Stargate puede ser la misma. Amazon y otros proveedores de la nube han anunciado planes para aumentar la orientación de gasto de capital.
Supongamos que el nivel de talento y la concienciación sobre la investigación en IA en todo el mundo están a la par. ¿Un mayor número de GPU nos permitirá realizar más exploraciones experimentales? Al final, puede que todo vuelva a la competencia en el ámbito informático.
DeepSeek no tiene exigencias comerciales y se centra en explorar la tecnología inteligente de la IAG. La acción de código abierto es de gran importancia para promover el progreso de la IAG, intensificar la competencia y promover la apertura, lo que tiene un efecto de catfish en cierta medida.
¿Puede la destilación superar al SOTA?
Hay un detalle que no está claro. Si DeepSeek hubiera utilizado una gran cantidad de datos de CoT destilados de la etapa previa al entrenamiento, los resultados actuales no se considerarían tan sorprendentes, ya que aún se basan en la inteligencia básica obtenida por los gigantes de primer nivel y luego publicada en código abierto. Pero si la etapa previa al entrenamiento no utiliza una gran cantidad de datos destilados, sería sorprendente que DeepSeek lograra los resultados actuales a partir del preentrenamiento desde cero.
Además, es poco probable que la destilación pueda superar a SOTA en el modelo base. Pero DeepSeek R-1 es muy fuerte. Supongo que se debe a que el modelo Reward hace un muy buen trabajo. Si la ruta R-1 Zero es confiable, tiene la posibilidad de superar a SOTA.
¡Sin foso!
Comentario anterior de Google sobre OpenAI: ¡No hay foso! Esta frase también es apropiada en este caso.
La gran migración de usuarios de Chatbot ha proporcionado al mercado una inspiración importante: el progreso de la tecnología inteligente está más allá de la imaginación de la gente y es difícil que los productos por etapas formen una barrera absoluta.
Ya se trate de ChatGPT/Sonnet/Perplexity, que acaba de ganar popularidad y reputación, o de herramientas para desarrolladores como Cursor y Windsurf, una vez que estén disponibles productos más inteligentes, los usuarios dejarán de ser leales a la “generación anterior” de productos inteligentes. Hoy en día, es difícil construir una fosa tanto en la capa de modelo como en la capa de aplicación.
DeepSeek también ha comprobado una cosa esta vez: el modelo es la aplicación. DeepSeek no tiene innovación en forma de producto. El núcleo es inteligencia + código abierto. No puedo evitar pensar: En la era de la IA, ¿es cualquier innovación en productos y modelos de negocio inferior a la innovación de la inteligencia?
¿Debería DeepSeek hacerse cargo del tráfico de Chatbot y expandirlo?
De la respuesta del equipo de DeepSeek se desprende claramente que DeepSeek aún no ha descubierto cómo utilizar esta ola de tráfico.
La esencia de la cuestión de si se debe o no aceptar y explotar activamente este tráfico es: ¿pueden una gran empresa comercial y un gran laboratorio de investigación coexistir en la misma organización?
Este asunto es una gran prueba de asignación de energía y recursos, de capacidades organizativas y de decisiones estratégicas. Si se tratara de una gran empresa como ByteDance o Meta, su primera reacción sería asumir el reto, y tendrían una cierta base organizativa para hacerlo. Sin embargo, como organización de laboratorio de investigación, DeepSeek debe estar bajo una gran presión para gestionar esta enorme cantidad de tráfico.
Pero al mismo tiempo, también deberíamos pensar si esta ola de Chatbots será un tráfico temporal. ¿Los Chatbots son parte de la línea principal de la futura exploración inteligente? Parece que cada etapa de la inteligencia tiene una forma de producto correspondiente, y los Chatbots son solo una de las primeras formas que se han descubierto.
Para DeepSeek, desde la perspectiva de los próximos 3 a 5 años, ¿sería un error no hacerse cargo del tráfico de chatbots hoy? ¿Qué ocurriría si algún día se produjera un efecto de escala? Si finalmente se materializa la inteligencia artificial general, ¿qué operador se utilizará para transmitirla?
¿De dónde surgirá el próximo momento revelador del avance de la IA?
Por un lado, el modelo de próxima generación del primer escalón es crítico, pero hoy estamos en el límite de Transformer y no es seguro que el primer escalón pueda presentar un modelo que pueda lograr una mejora generacional. OpenAI, Anthropic y Google respondieron lanzando modelos que son un 30-50% mejores, pero eso puede no ser suficiente para salvar la situación porque el oponente tiene entre 10 y 30 veces más recursos.
Por otro lado, la implementación del Agente es fundamental, porque el Agente necesita hacer un razonamiento de múltiples pasos a larga distancia. Si el modelo es un 5-10% mejor, el efecto principal se magnificará muchas veces. Por lo tanto, OpenAI, Anthropic y Google deben implementar productos de Agente en el terreno por un lado, modelo integrado de pila completa + productos de Agente, al igual que Windows + Office. Por otro lado, también deben mostrar modelos más potentes, como los modelos de próxima generación representados por la versión completa de O3 y Sonnet 4/3.5 opus.
En medio de la incertidumbre tecnológica, los más valiosos son los investigadores talentosos en IA. Cualquier organización que quiera explorar la IAG debe invertir recursos en una apuesta más radical por el próximo paradigma, especialmente en el contexto actual, donde los modelos han alcanzado el estado de equilibrio en la etapa de preentrenamiento. Es necesario contar con buen talento y amplios recursos para explorar el próximo momento Aha de la inteligencia emergente.
Por último, espero que la tecnología no tenga fronteras.