DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Modelo de raciocínio open-source que igualou o OpenAI o1 em benchmarks por uma fração do custo. Causou queda de USD 1 trilhão em valor de mercado de empresas de IA em janeiro de 2025.
A leitura do Thiago
DeepSeek-R1, lançado em janeiro de 2025, foi o evento mais disruptivo em IA desde o ChatGPT. Uma startup chinesa entregou um modelo de raciocínio (equivalente ao OpenAI o1) com performance comparável em matemática, código e ciência, treinado por uma fração do custo, e LIBEROU TUDO open-source, pesos, código de treinamento, dados sintéticos. Resultado: NVIDIA perdeu USD 600 bilhões em valor de mercado em um único dia, e o mercado inteiro questionou a tese de 'IA exige investimentos de USD 100 bilhões em compute'.
Tecnicamente, o paper mostra que reinforcement learning puro (sem etapa de fine-tuning supervisionado) pode ensinar um LLM a 'pensar' produzindo cadeias longas de raciocínio espontaneamente. Para o C-level brasileiro, três implicações estratégicas críticas: (1) o pressuposto de que IA de fronteira só pode vir dos EUA caiu, sua estratégia de IA precisa considerar fornecedores chineses e europeus, não só americanos; (2) o custo de inferência de modelos de raciocínio caiu mais de 90%, viabiliza aplicações sofisticadas (análise jurídica multipassos, diagnóstico financeiro complexo, planejamento operacional) que antes eram economicamente proibitivas; (3) abre questões geopolíticas e regulatórias relevantes: rodar DeepSeek localmente é uma opção, usar a API hospedada na China é outra, entenda a diferença antes de assinar contratos.
O que muda na prática
Para o líder, o DeepSeek-R1 muda uma premissa de planejamento, não só uma escolha de fornecedor. Até janeiro de 2025, muita gente desenhou roadmap de IA assumindo que capacidade de raciocínio avançado seria cara e exclusiva de poucos fornecedores americanos. R1 mostrou que dá para ter raciocínio de ponta a uma fração do custo, com código aberto.
Na prática, isso significa revisitar qualquer caso de uso que você descartou por ser caro demais: análise jurídica de contratos em várias etapas, conciliação financeira complexa, planejamento operacional com muitas restrições. O que era proibitivo no preço de doze meses atrás pode estar dentro do orçamento agora. A ação concreta é refazer a conta de retorno desses casos antes de assumir que continuam inviáveis.
A decisão mais sensível, porém, é de governança e onde os dados trafegam. Existe uma diferença enorme entre baixar o modelo aberto e rodá-lo na sua própria infraestrutura, e usar a API hospedada na China. No primeiro caso seus dados não saem de casa, o que importa para banco, saúde e governo.
No segundo, você está enviando informação sensível para fora, com implicações de LGPD e de risco geopolítico. Antes de qualquer piloto, a pergunta para o time e para o jurídico é clara: vamos hospedar isso onde, e quem mais toca esse dado? Tratar modelo aberto e serviço hospedado como se fossem a mesma coisa é o erro que vai gerar problema de compliance.
No nível estratégico, o efeito prático é parar de tratar IA de fronteira como sinônimo de um ou dois fornecedores. A queda de valor de mercado que o R1 provocou não é detalhe de bolsa, é o mercado reconhecendo que a vantagem de quem vende IA cara é menos sólida do que parecia. Para você que compra, isso é poder de barganha.
Use a existência de alternativas abertas e baratas como alavanca de negociação com qualquer fornecedor proprietário que tente prender você num contrato caro de longo prazo.
O abstract original (inglês)
Valeu pelo feedback. Isso ajuda a afiar a biblioteca.