Biblioteca · Paper · 2022 · NeurIPS

Training language models to follow instructions with human feedback (InstructGPT)

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., et al.

Apresentou o RLHF (Reinforcement Learning from Human Feedback), técnica que transformou GPT-3 cru em ChatGPT utilizável. Sem este paper, não haveria a explosão de ChatGPT em dezembro de 2022.

A leitura do Thiago

InstructGPT é o paper que, na prática, criou o ChatGPT como produto. Os autores da OpenAI fizeram uma descoberta crucial: GPT-3 puro (175 bilhões de parâmetros, gigantesco) era pouco útil porque produzia respostas verbosas, tóxicas ou irrelevantes. A solução?

Pedir a humanos para classificar respostas e treinar a IA a preferir o que humanos preferem, uma técnica chamada RLHF (Reinforcement Learning from Human Feedback). Resultado contraintuitivo: um modelo 100x menor (1,3 bilhão de parâmetros) ajustado com feedback humano superou em utilidade um modelo 100x maior sem ajuste. Em linguagem executiva: a inteligência bruta importa menos do que o alinhamento à intenção do usuário.

Para corporações brasileiras, três lições estratégicas: (1) ao avaliar fornecedores de IA, pergunte se há um pipeline robusto de feedback humano, é o que separa demo de produto; (2) coletar feedback de seus usuários internos sobre saídas de IA é um ATIVO ESTRATÉGICO (cada like/dislike vale ouro); (3) a economia inteira de 'AI labeler' (anotadores humanos) que sustenta o setor, incluindo trabalho terceirizado em países em desenvolvimento, com implicações éticas e regulatórias relevantes, começa aqui. Esta é a base operacional do alinhamento moderno.

O que muda na prática

A lição prática do InstructGPT para quem lidera é contraintuitiva e vale dinheiro: o modelo mais inteligente não é o que entrega mais valor, o modelo mais alinhado à intenção do usuário é. O paper mostrou um modelo cem vezes menor, ajustado com feedback humano, ganhando em utilidade de um gigante sem ajuste. Traduzindo para a sua decisão de compra: pare de escolher fornecedor de IA pelo tamanho do modelo ou pelo benchmark da moda.

A pergunta certa para o fornecedor é "como vocês coletam e incorporam feedback humano sobre as respostas, e com que frequência o modelo é reajustado a partir disso?". Se a resposta for vaga, você está comprando uma demo, não um produto que melhora em produção. No dia a dia da sua operação, isso vira um ativo que a maioria das empresas joga fora sem perceber.

Cada vez que um atendente, um analista jurídico ou um vendedor seu marca uma resposta de IA como boa ou ruim, ou corrige a saída antes de usar, está gerando dado de alinhamento, exatamente o insumo que separa IA medíocre de IA afiada. A decisão concreta para o operador é instrumentar isso: botão de joinha, campo de correção, log do que foi editado. Em seis meses você tem uma base de feedback que nenhum fornecedor genérico tem sobre o seu contexto, e que pode ser usada para customizar ou pelo menos para escolher melhor o fornecedor.

Quem trata feedback de usuário interno como ruído está deixando ouro na mesa. Há ainda uma camada de governança e reputação que o paper expõe e que um conselho responsável não pode ignorar: toda essa indústria depende de anotadores humanos, muitas vezes terceirizados em países em desenvolvimento, classificando conteúdo sensível. Quando você contrata um fornecedor de IA, está, indiretamente, dentro dessa cadeia de trabalho.

Para empresa que leva ESG e risco reputacional a sério, vale incluir na due diligence como o fornecedor trata e remunera quem faz a anotação. Não é detalhe técnico, é risco de imagem e, cada vez mais, de conformidade regulatória.

O abstract original (inglês)

Making language models bigger does not inherently make them better at following a user's intent. We show an avenue for aligning language models with user intent by fine-tuning with human feedback. Starting with a set of labeler-written prompts and prompts submitted through the OpenAI API, we collect a dataset of labeler demonstrations of the desired model behavior, which we use to fine-tune GPT-3 using supervised learning.

llmalignmentrlhfopenaisafety

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?