Insights sobre DeepSeek e a nova era da IA

Embora o OpenAI o1 tenha proposto o aprendizado por reforço (RL), ele não quebrou o círculo por vários motivos. O DeepSeek R1 resolveu o quebra-cabeça do RL e empurrou toda a indústria para um novo paradigma, entrando verdadeiramente na segunda metade da inteligência. Houve muitas discussões no mercado sobre a definição de DeepSeek. A próxima discussão valiosa é como jogar a corrida de IA?

O DeepSeek ultrapassou o OpenAI?

Não há dúvidas de que o DeepSeek superou o Meta Llama, mas ainda está muito atrás dos players de primeira linha, como OpenAI, Anthropic e Google. Por exemplo, o Gemini 2.0 Flash, poderoso e totalmente modal, custa menos que o DeepSeek. O mundo exterior subestima as capacidades dos players de primeira linha representados pelo Gemini 2.0, que não foi de código aberto para atingir um efeito sensacional.

O DeepSeek é empolgante, mas não pode ser chamado de inovação de nível paradigmático. Uma descrição mais precisa é que ele tornou público o paradigma anteriormente meio oculto do OpenAI o1, levando todo o ecossistema a uma taxa de penetração muito alta.

Da perspectiva dos primeiros princípios, é difícil superar os fabricantes de modelos de primeira linha sob a arquitetura da geração Transformer. Também é difícil conseguir ultrapassar sob o mesmo caminho. Hoje, estamos ansiosos para que alguém explore a próxima geração de arquitetura e paradigma inteligentes.

DeepSeek alcançou OpenAI e Anthropic em um ano

O DeepSeek abre um novo paradigma?

Como mencionado anteriormente, estritamente falando, o DeepSeek não inventou um novo paradigma.

Mas a importância do DeepSeek está em ajudar o novo paradigma de RL e computação de tempo de teste a ganhar mais popularidade. Se o lançamento inicial do o1 da OpenAI apresentou um enigma para a indústria, o DeepSeek foi o primeiro a resolvê-lo publicamente.

Antes do DeepSeek lançar o R1 e o R1-zero, apenas um pequeno número de pessoas na indústria praticava modelos de raciocínio e RL. No entanto, o DeepSeek forneceu um roteiro para todos, fazendo a indústria acreditar que fazer isso pode realmente melhorar a inteligência. Isso aumentou muito a confiança e atraiu mais pesquisadores de IA para se voltarem para novos paradigmas de pesquisa.

Somente com a entrada de pessoas talentosas pode haver inovação de algoritmos, e somente com a busca próxima do código aberto mais recursos de computação podem ser investidos. Após o DeepSeek, a OpenAI, que originalmente planejava não lançar novos modelos, lançou o o3mini um após o outro, e planeja continuar lançando o o3, e modelos de código aberto também estão sob consideração. A Anthropic e o Google também acelerarão a pesquisa de RL. O avanço da indústria do novo paradigma foi acelerado por causa do DeepSeek, e equipes pequenas e médias também podem tentar RL em diferentes domínios.

Além disso, a melhoria do modelo de raciocínio ajudará ainda mais a implementação do agente. Os pesquisadores de IA agora estão mais confiantes na pesquisa e exploração de agentes. Portanto, também pode ser dito que o modelo de raciocínio de código aberto do DeepSeek promoveu a exploração adicional do agente pela indústria.

Então, embora o DeepSeek não tenha inventado um novo paradigma, ele impulsionou toda a indústria para um novo paradigma.

Como a abordagem tecnológica da Anthropic difere da R1?

Da entrevista de Dario, podemos ver que o entendimento da Anthropic sobre o modelo R-1/raciocínio é um pouco diferente daquele da série O. Dario acha que o modelo base e o modelo de raciocínio devem ser um espectro contínuo, em vez de uma série de modelos independentes como a OpenAI. Se você fizer apenas a série O, logo atingirá o teto.

Sempre me perguntei por que a codificação, o raciocínio e as capacidades de agente do Sonnet 3.5 melhoraram tanto de repente, mas o 4o nunca alcançou?

Eles fizeram muito trabalho de RL no estágio de modelo base de pré-treinamento. O essencial é melhorar o modelo base. Caso contrário, confiar somente em RL para melhorar o modelo de raciocínio pode facilmente consumir todos os benefícios.

A sensação causada pelo DeepSeek foi inevitável, mas também acidental

Do ponto de vista técnico, o DeepSeek tem os seguintes destaques:

  • Código aberto: O código aberto é muito importante. Depois que a OpenAI se tornou uma empresa de código fechado começando com o GPT-3, as três principais empresas não divulgaram mais detalhes técnicos, deixando um nicho de código aberto em branco. No entanto, a Meta e a Mistral não assumiram essa posição. O ataque surpresa da DeepSeek dessa vez tornou a navegação tranquila no campo do código aberto.

Se dermos 100 pontos para sensacionalismo, então 30 pontos irão para melhoria de inteligência, e 70 pontos para código aberto. LLaMA também era código aberto antes, mas não teve um efeito tão sensacional, o que mostra que o nível de inteligência de LLaMa não é suficiente.

  • Barato: “Sua margem é minha oportunidade” está se tornando mais valioso.
  • Rede + CoT Público : Esses dois pontos podem trazer uma boa experiência do usuário para os usuários. O DeepSeek joga as duas cartas ao mesmo tempo, o que pode ser considerado uma bomba-rei. A experiência que ele oferece aos usuários C-end é completamente diferente de outros Chatbots. Em particular, a transparência do CoT torna o processo de pensamento do modelo público. A transparência pode tornar os usuários mais confiantes na IA e promover a quebra do círculo. No entanto, o surgimento do DeepSeek deveria ter tido um grande impacto no Perplexity, mas o servidor DeepSeek estava instável, e a equipe do Perplexity respondeu rapidamente e lançou o R-1, que por sua vez assumiu um grande número de usuários de estouro do DeepSeek R-1.
  • Generalização RL: Embora RL tenha sido proposto pela primeira vez pela OpenAI o1, sua taxa de penetração não é alta devido a várias operações que foram mantidas meio escondidas. DeepSeek R-1 promoveu muito o progresso do paradigma do modelo de raciocínio e melhorou muito sua aceitação ecológica.

O investimento da DeepSeek na exploração tecnológica é um fator determinístico que torna essa conquista inteligente digna de mais atenção e discussão, mas o momento do lançamento do DeepSeek R1 torna essa sensação acidental:

No passado, os Estados Unidos sempre disseram que estavam muito à frente em pesquisa tecnológica básica, mas o DeepSeek é nativo da China, o que também é um destaque por si só. Nesse processo, muitos gigantes da tecnologia americana começaram a promover o argumento de que o DeepSeek desafia a posição dos Estados Unidos como um figurão tecnológico. O DeepSeek estava passivamente envolvido na guerra da opinião pública;

Antes do lançamento do DeepSeek R1, o evento OpenAI Stargate estava apenas começando a fermentar. O contraste entre esse enorme investimento e a eficiência de saída inteligente da equipe do DeepSeek era muito gritante, e era difícil não atrair atenção e discussão.

O DeepSeek fez o preço das ações da Nvidia despencar e provocou ainda mais a opinião pública. Eles certamente não esperavam que se tornariam o primeiro cisne negro no mercado de ações dos EUA em 2025;

O Festival da Primavera é um campo de treinamento para produtos. Na era da Internet móvel, muitos superaplicativos explodiram durante o Festival da Primavera, e a era da IA ​​não é exceção. O DeepSeek R1 foi lançado pouco antes do Festival da Primavera. O que surpreendeu o público foi sua capacidade de criação de texto, em vez das habilidades de codificação e matemática enfatizadas durante o treinamento. Criações culturais que são mais relacionáveis ​​têm mais probabilidade de se tornarem virais.

Quem é ferido? Quem se beneficia?

Os participantes nesta arena podem ser divididos em três categorias: ToC, To Developer e To Enterprise (to Government):

  • ToC: O chatbot é definitivamente o mais impactado, com o DeepSeek tirando a atenção da marca e o mindshare, e o ChatGPT não é exceção;
  • O impacto sobre os desenvolvedores é muito limitado. Vimos alguns usuários comentarem que o R1 não é tão bom quanto o Sonnet depois de usá-lo. Os funcionários do Cursor também disseram que o Sonnet ainda está superando. Portanto, uma alta proporção de usuários escolhe o Sonnet e não há migração em larga escala.
  • O negócio da To Enterprise e To Government é baseado na confiança e no entendimento das necessidades. Os interesses de grandes organizações na tomada de decisões são muito complexos e não é tão fácil migrar quanto os usuários C-end.

Vamos pensar nisso de outra perspectiva: código fechado, código aberto e poder computacional:

No curto prazo, as pessoas pensarão que o OpenAI/Anthropic/Google de código fechado será mais impactado:

  • O mistério da tecnologia foi tornado público, e o prêmio mais importante do mistério do hype da IA ​​foi quebrado;
  • De forma mais realista, o mercado acredita que alguns dos clientes potenciais e do tamanho de mercado dessas empresas de código fechado foram arrebatados, e o período de retorno do investimento em GPU foi prolongado;
  • Como líder, a OpenAI é a que mais sofre. Seu sonho anterior de manter sua tecnologia em segredo e não aberta ao público na esperança de ganhar mais prêmios de tecnologia dificilmente se tornará realidade.

Mas, a médio e longo prazo, empresas com recursos abundantes de GPU ainda se beneficiarão. Por um lado, a Meta, uma empresa de segunda linha, pode rapidamente acompanhar novos métodos, tornando o Capex mais eficiente, então a Meta pode ser uma grande beneficiária. Por outro lado, mais exploração é necessária para melhorar a inteligência. O código aberto do DeepSeek trouxe todos ao mesmo nível, e entrar em novas explorações requer 10 vezes ou até mais investimento em GPU.

Desde os primeiros princípios, para a indústria inteligente de IA, seja desenvolvendo inteligência ou aplicando inteligência, ela está fadada a consumir poder de computação massivo da natureza física. Isso é determinado por leis básicas e não pode ser completamente evitado pela otimização técnica.

Portanto, seja explorando inteligência ou aplicando inteligência, mesmo que haja dúvidas no curto prazo, a demanda por poder de computação no médio e longo prazo explodirá. Isso também explica por que Musk parte dos primeiros princípios e a xAI insiste em expandir o cluster. A lógica profunda por trás da xAI e da Stargate pode ser a mesma. A Amazon e outros fornecedores de nuvem anunciaram planos para aumentar a orientação do Capex.

Vamos supor que o nível de talento e a conscientização da pesquisa de IA ao redor do mundo estejam no mesmo nível, mais GPUs nos permitirão fazer mais exploração experimental? No final, pode voltar para a competição em computação.

O DeepSeek não tem demandas comerciais e foca em explorar a tecnologia inteligente AGI. A ação de código aberto é de grande importância para promover o progresso da AGI, intensificando a competição, promovendo a abertura, o que tem um efeito catfish até certo ponto.

A destilação pode superar o SOTA?

Há um detalhe que é incerto. Se o DeepSeek tivesse usado uma grande quantidade de dados CoT destilados do estágio de pré-treinamento, os resultados de hoje não seriam considerados tão surpreendentes, pois ainda são baseados na inteligência básica obtida pelos gigantes de primeira linha e, então, de código aberto. Mas se o estágio de pré-treinamento não usar uma grande quantidade de dados destilados, seria surpreendente para o DeepSeek atingir os resultados de hoje do pré-treinamento do zero.

Além disso, é improvável que a destilação possa superar o SOTA no modelo base. Mas o DeepSeek R-1 é muito forte. Acho que é porque o modelo Reward faz um trabalho muito bom. Se o caminho R-1 Zero for confiável, ele tem uma chance de superar o SOTA.

Sem fosso!

Comentário anterior do Google sobre OpenAI: No Moat! Esta frase também é apropriada aqui.

A grande migração de usuários de Chatbot deu ao mercado uma inspiração importante: o progresso da tecnologia inteligente está além da imaginação das pessoas, e é difícil que produtos em fases formem uma barreira absoluta.

Seja ChatGPT/Sonnet/Perplexity que acabou de formar mindshare e reputação, ou ferramentas de desenvolvedor como Cursor e Windsurf, uma vez que produtos mais inteligentes estejam disponíveis, os usuários não têm lealdade à “geração anterior” de produtos inteligentes. Hoje, é difícil construir um fosso tanto na camada de modelo quanto na camada de aplicação.

O DeepSeek também verificou uma coisa dessa vez: o modelo é a aplicação. O DeepSeek não tem inovação em forma de produto. O núcleo é inteligência + código aberto. Não posso deixar de pensar: na era da IA, alguma inovação em produtos e modelos de negócios é inferior à inovação da inteligência?

O DeepSeek deve assumir o tráfego do Chatbot e expandi-lo?

Fica claro pela resposta da equipe do DeepSeek que a empresa ainda não descobriu como usar essa onda de tráfego.

A essência da questão de aceitar ou não e operar ativamente esse tráfego é: uma grande empresa comercial e um grande laboratório de pesquisa podem coexistir na mesma organização?

Este assunto é um grande teste de alocação de energia e recursos, capacidades organizacionais e escolhas estratégicas. Se fosse uma grande empresa como a ByteDance ou a Meta, sua primeira reação seria assumir, e eles teriam uma certa base organizacional para fazer isso. No entanto, como uma organização de laboratório de pesquisa, a DeepSeek deve estar sob grande pressão para lidar com essa enorme quantidade de tráfego.

Mas, ao mesmo tempo, também devemos pensar se essa onda de Chatbot será um tráfego temporário? O Chatbot faz parte da linha principal da futura exploração inteligente? Parece que cada estágio da inteligência tem uma forma de produto correspondente, e o Chatbot é apenas uma das primeiras formas desbloqueadas.

Para a DeepSeek, da perspectiva dos próximos 3-5 anos, seria um erro se ela não assumisse o tráfego do Chatbot hoje? E se houver um efeito de escala um dia? Se a AGI for finalmente realizada, qual operadora será usada para carregá-la?

De onde virá o próximo momento "Aha" de inovação da IA?

Por um lado, o modelo de próxima geração do primeiro escalão é crítico, mas hoje estamos no limite do Transformer, e é incerto se o primeiro escalão pode chegar a um modelo que possa atingir a melhoria geracional. OpenAI, Anthropic e Google responderam lançando modelos que são 30-50% melhores, mas isso pode não ser suficiente para salvar a situação porque o oponente tem 10-30 vezes mais recursos.

Por outro lado, a implementação do Agent é crítica, porque o Agent precisa fazer raciocínio multietapas de longa distância. Se o modelo for 5-10% melhor, o efeito de liderança será ampliado muitas vezes. Portanto, OpenAI, Anthropic e Google devem implementar produtos Agent no chão por um lado, modelo integrado full stack + produtos Agent, assim como Windows + Office. Por outro lado, eles também devem mostrar modelos mais poderosos, como os modelos de próxima geração representados pela versão completa do O3 e Sonnet 4/3.5 opus.

Em meio à incerteza tecnológica, os mais valiosos são os talentosos pesquisadores de IA. Qualquer organização que queira explorar AGI deve investir recursos em uma aposta mais radical no próximo paradigma, especialmente no contexto atual, onde os modelos atingiram o estado de equilíbrio no estágio de pré-treinamento. É necessário ter bons talentos + amplos recursos para explorar o próximo momento Aha da inteligência emergente.

Por fim, espero que a tecnologia não tenha fronteiras.

Deixe um comentário

Voltar ao Topo