Biblioteca · Paper · 2025 · arXiv (DeepSeek)

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., et al.

Modelo de raciocínio open-source que igualou o OpenAI o1 em benchmarks por uma fração do custo. Causou queda de USD 1 trilhão em valor de mercado de empresas de IA em janeiro de 2025.

A leitura do Thiago

DeepSeek-R1, lançado em janeiro de 2025, foi o evento mais disruptivo em IA desde o ChatGPT. Uma startup chinesa entregou um modelo de raciocínio (equivalente ao OpenAI o1) com performance comparável em matemática, código e ciência, treinado por uma fração do custo, e LIBEROU TUDO open-source, pesos, código de treinamento, dados sintéticos. Resultado: NVIDIA perdeu USD 600 bilhões em valor de mercado em um único dia, e o mercado inteiro questionou a tese de 'IA exige investimentos de USD 100 bilhões em compute'.

Tecnicamente, o paper mostra que reinforcement learning puro (sem etapa de fine-tuning supervisionado) pode ensinar um LLM a 'pensar' produzindo cadeias longas de raciocínio espontaneamente. Para o C-level brasileiro, três implicações estratégicas críticas: (1) o pressuposto de que IA de fronteira só pode vir dos EUA caiu, sua estratégia de IA precisa considerar fornecedores chineses e europeus, não só americanos; (2) o custo de inferência de modelos de raciocínio caiu mais de 90%, viabiliza aplicações sofisticadas (análise jurídica multipassos, diagnóstico financeiro complexo, planejamento operacional) que antes eram economicamente proibitivas; (3) abre questões geopolíticas e regulatórias relevantes: rodar DeepSeek localmente é uma opção, usar a API hospedada na China é outra, entenda a diferença antes de assinar contratos.

O que muda na prática

Para o líder, o DeepSeek-R1 muda uma premissa de planejamento, não só uma escolha de fornecedor. Até janeiro de 2025, muita gente desenhou roadmap de IA assumindo que capacidade de raciocínio avançado seria cara e exclusiva de poucos fornecedores americanos. R1 mostrou que dá para ter raciocínio de ponta a uma fração do custo, com código aberto.

Na prática, isso significa revisitar qualquer caso de uso que você descartou por ser caro demais: análise jurídica de contratos em várias etapas, conciliação financeira complexa, planejamento operacional com muitas restrições. O que era proibitivo no preço de doze meses atrás pode estar dentro do orçamento agora. A ação concreta é refazer a conta de retorno desses casos antes de assumir que continuam inviáveis.

A decisão mais sensível, porém, é de governança e onde os dados trafegam. Existe uma diferença enorme entre baixar o modelo aberto e rodá-lo na sua própria infraestrutura, e usar a API hospedada na China. No primeiro caso seus dados não saem de casa, o que importa para banco, saúde e governo.

No segundo, você está enviando informação sensível para fora, com implicações de LGPD e de risco geopolítico. Antes de qualquer piloto, a pergunta para o time e para o jurídico é clara: vamos hospedar isso onde, e quem mais toca esse dado? Tratar modelo aberto e serviço hospedado como se fossem a mesma coisa é o erro que vai gerar problema de compliance.

No nível estratégico, o efeito prático é parar de tratar IA de fronteira como sinônimo de um ou dois fornecedores. A queda de valor de mercado que o R1 provocou não é detalhe de bolsa, é o mercado reconhecendo que a vantagem de quem vende IA cara é menos sólida do que parecia. Para você que compra, isso é poder de barganha.

Use a existência de alternativas abertas e baratas como alavanca de negociação com qualquer fornecedor proprietário que tente prender você num contrato caro de longo prazo.

O abstract original (inglês)

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models distilled from DeepSeek-R1.

llmreasoningopen-sourcedeepseekmilestone

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?