Biblioteca · Paper · 2022 · NeurIPS

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., Zhou, D.

Demonstrou que pedir ao LLM para 'pensar passo a passo' destrava capacidades de raciocínio dormentes. Inspirou toda a linha 'reasoning models' (o1, DeepSeek-R1).

A leitura do Thiago

Chain-of-Thought (CoT) é o paper que revelou um truque quase mágico: pedir ao LLM 'pense passo a passo antes de responder' faz com que erros em matemática e raciocínio caiam pela metade. A descoberta soa banal, mas tem profundidade: sugere que LLMs grandes têm capacidades latentes que não emergem na resposta direta, mas aparecem quando o modelo 'escreve seu próprio rascunho'. Em linguagem executiva: é o equivalente a pedir a um analista 'me mostra como chegou à resposta', não apenas o resultado final, e descobrir que o ato de explicar produz melhor pensamento.

Para corporações brasileiras, três aplicações práticas imediatas: (1) qualquer prompt usado em produção em sua empresa (atendimento, análise jurídica, geração de relatórios) provavelmente melhora 10-30% adicionando 'pense passo a passo', é a otimização mais barata em IA; (2) explicou o caminho que levou ao OpenAI o1, Claude com thinking e DeepSeek-R1, toda a 'era dos modelos de raciocínio' começa aqui; (3) lição organizacional: documentar raciocínio (não só conclusão) é tão valioso para humanos quanto para máquinas. Reuniões, análises e decisões com 'cadeia de pensamento' explícita produzem melhor cultura analítica.

O que muda na prática

Chain-of-Thought é, provavelmente, o item desta lista com maior retorno imediato sobre o menor esforço para quem opera. A descoberta é simples: pedir ao modelo "pense passo a passo antes de responder" derruba erros de raciocínio e de conta pela metade, sem trocar de modelo, sem pagar mais nada. Para o operador, isso é uma alavanca de qualidade quase gratuita.

Se a sua empresa já usa IA em atendimento, triagem jurídica, análise de relatório ou geração de proposta, há uma chance concreta de ganhar de 10 a 30 por cento de acerto só reescrevendo o prompt para forçar o modelo a mostrar o caminho antes da conclusão. A ação concreta é auditar os prompts em produção esta semana e medir o efeito num lote de casos reais. É o teste A/B mais barato disponível em IA.

Há uma decisão de produto embutida aqui que líderes precisam pesar: pedir raciocínio explícito custa mais tokens e mais tempo de resposta. Para tarefa simples (classificar um e-mail), não compensa. Para tarefa de alto valor e alto risco (avaliar uma cláusula contratual, calcular um desconto, decidir uma exceção de crédito), compensa muito, porque o custo de um erro supera de longe o custo de alguns tokens a mais.

A regra de gestão é casar o esforço de raciocínio ao valor da decisão, e isso vira política de uso de IA na sua operação, não escolha aleatória de cada analista. É também o motor por trás da geração atual de modelos de raciocínio (o1 da OpenAI, modos de thinking), então entender este conceito ajuda a decidir quando vale pagar pelo modelo mais caro que raciocina mais. A implicação menos óbvia, e talvez a mais valiosa, é organizacional e não técnica.

O paper mostra que o ato de explicar o raciocínio produz melhor raciocínio, na máquina e por extensão no humano. Para quem lidera, isso é argumento concreto para exigir que decisões importantes na empresa venham com a cadeia de pensamento documentada, não só com a conclusão. Reunião que registra o porquê, análise que mostra o caminho, parecer que expõe o raciocínio.

Empresas que documentam o como, e não só o que, constroem memória institucional e cultura analítica que escalam. A IA só tornou visível um princípio que sempre valeu para times de alto desempenho.

O abstract original (inglês)
We explore how generating a chain of thought—a series of intermediate reasoning steps—significantly improves the ability of large language models to perform complex reasoning. Experiments on three large language models show that chain-of-thought prompting improves performance on a range of arithmetic, commonsense, and symbolic reasoning tasks.
llmreasoningpromptinggoogle
Ler o paper original →
O que você achou desta página?
Recomendaria esta página para alguém do seu time?