Biblioteca · Paper · 2022 · arXiv (Anthropic)

Constitutional AI: Harmlessness from AI Feedback

Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., et al.

Proposta da Anthropic para alinhar IA com princípios escritos em linguagem natural ('constituição'), reduzindo dependência de feedback humano massivo. Base do Claude.

A leitura do Thiago

Constitutional AI é a proposta da Anthropic (empresa fundada por ex-OpenAI, criadores do Claude) para um problema espinhoso: como alinhar IA a valores sem precisar de exércitos de anotadores humanos avaliando cada resposta. A solução: escreva uma 'constituição' em linguagem natural ('seja útil', 'não auxilie atividades ilegais', 'respeite autonomia humana', etc.) e use a PRÓPRIA IA para criticar e melhorar suas próprias respostas com base nesses princípios. Resultado: assistentes mais seguros sem o custo humano massivo.

Em linguagem executiva: é governança de IA documentada, auditável e escalável, algo que conselhos corporativos e reguladores adoram. Para empresas brasileiras, três implicações estratégicas: (1) com a LGPD e leis de IA emergentes no Brasil e na União Europeia, ter políticas EXPLÍCITAS sobre o comportamento esperado de seus sistemas de IA deixou de ser opcional, Constitutional AI é o modelo conceitual para isso; (2) a metáfora se aplica a governança humana também: empresas com 'constituições' claras (códigos de conduta concretos, com exemplos) escalam melhor do que empresas com regras vagas; (3) se você usa Claude da Anthropic em sua operação, esta é a tecnologia por trás do comportamento dele, entender o paper ajuda a entender por que ele se recusa ou aceita certas tarefas.

O que muda na prática

Constitutional AI fala diretamente com a agenda de governança que já está batendo na porta dos conselhos brasileiros. A ideia central, escrever princípios em linguagem natural e usar a própria IA para se policiar contra eles, é o modelo conceitual mais limpo que existe para responder à pergunta que reguladores e clientes vão fazer: como vocês garantem que o sistema de IA de vocês se comporta dentro de regras claras? Para o líder, a ação prática não é virar especialista na técnica, é exigir que todo sistema de IA em produção na empresa tenha uma política explícita e escrita do que ele pode e não pode fazer, com exemplos concretos, auditável.

Política vaga ("a IA deve ser ética") não sobrevive a um questionamento regulatório nem a um incidente. Política concreta, com casos, sobrevive. Isso tem consequência direta em conformidade e risco.

Com a LGPD já em vigor e legislação de IA avançando no Brasil e na Europa, ter o comportamento esperado dos seus sistemas documentado de forma auditável deixou de ser refinamento e virou requisito defensável. Quando algo der errado, e em algum momento vai dar, a diferença entre uma multa e uma advertência costuma ser conseguir mostrar que havia uma política clara, governança documentada e mecanismo de correção. O paper oferece o vocabulário e a estrutura para construir isso.

A decisão de gestão é tratar a constituição do seu sistema de IA com o mesmo rigor de um código de conduta corporativo: aprovada no nível certo, revisada periodicamente, com dono. Há ainda um ponto operacional para quem usa o Claude, da Anthropic, na empresa: este paper é a tecnologia por trás de por que ele aceita ou recusa certas tarefas. Entender isso evita frustração e perda de tempo do time, que para de brigar com o modelo quando ele recusa algo por princípio, e passa a entender o limite.

E o paralelo organizacional vale a reflexão do líder: empresas que escalam bem são as que têm constituições claras, com exemplos práticos de comportamento esperado, não regras genéricas que cada um interpreta como quer. O mesmo princípio que alinha a máquina sem precisar de um supervisor humano em cada decisão é o que permite delegar com segurança numa organização que cresce.

O abstract original (inglês)

As AI systems become more capable, we would like to enlist their help to supervise other AIs. We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles.

alignmentsafetyanthropicrlhf

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?