Fundamentos: Como a IA Funciona · Aula F6

Como a IA aprende: as duas etapas

O ChatGPT não nasceu prestativo. Há duas etapas: primeiro ele lê uma montanha de texto e aprende a língua; depois, pessoas o ensinam a ser útil e seguir instruções. Saber isso explica vários comportamentos.

Pense por um minuto numa coisa que parece óbvia mas não é: por que o ChatGPT fala lindamente E ainda por cima tenta te ajudar, segue ordem, recusa pedido perigoso? Putz, eu juntava essas duas coisas numa só na minha cabeça, como se "saber falar" e "ser educado" fossem o mesmo músculo. Não são. E quando você descobre que vêm de duas etapas separadas, um monte de comportamento esquisito da IA, que antes parecia contradição, de repente faz todo sentido. É como entender que o cara fala bem porque leu muito, mas é gentil porque foi criado assim, são duas histórias diferentes. Pensa comigo que eu te mostro as duas. Beleza?

O ChatGPT é fluente e, ao mesmo tempo, prestativo e educado: ele tenta te ajudar, segue instruções, recusa pedidos perigosos. Essas duas qualidades, falar bem e ser útil, vêm de duas etapas de formação diferentes. Entender que são duas, e não uma, explica vários comportamentos que de outra forma parecem contraditórios.

A ideia central desta aula. Uma IA como o ChatGPT é formada em duas grandes etapas. Na primeira, o pré-treino, ela lê uma montanha gigantesca de texto e aprende, sozinha, como a língua funciona, prevendo a próxima palavra bilhões de vezes (a aula F.2). No fim dessa etapa, ela fala muito bem, mas é meio selvagem: completa qualquer coisa, sem noção de ser útil ou segura. Na segunda etapa, o ajuste com feedback humano, pessoas a ensinam a ser prestativa, a seguir instruções e a recusar o que não deve. As duas juntas explicam por que ela é fluente E educada, e também por que, mesmo assim, ainda pode errar um fato com confiança. Ao final, você vai entender as duas etapas e o que cada uma resolve (e o que não resolve).

01Etapa 1: aprender a língua (pré-treino)

A primeira etapa é a mais pesada e a mais cara, é onde queima a maior parte do dinheiro e da energia. A IA recebe uma quantidade colossal de texto (livros, artigos, sites, código) e treina a prever a próxima palavra, ajustando os seus pesos (a aula F.4) até ficar muito boa nisso. Como você já viu, pra prever bem ela é obrigada a absorver padrão de gramática, de fato, de raciocínio, de estilo. No fim do pré-treino, ela é um previsor de linguagem fora de série.

Só que tem um problema, e ele é engraçado. Esse previsor cru não tem a menor noção de ser útil. Você escreve "Como faço um bolo?" e, em vez de responder, ele pode emendar com mais perguntas parecidas, tipo "Como faço um pão? Como faço um pudim?". Por quê? Porque numa página da internet uma pergunta muitas vezes vem seguida de outras perguntas, e ele aprendeu a continuar o texto, não a te ajudar. Ele é fluente e meio selvagem, como um gênio que sabe tudo mas não entendeu que você fez uma pergunta esperando resposta.

02Etapa 2: aprender a ser útil (ajuste com feedback humano)

A segunda etapa é onde a gente doma esse selvagem. Pessoas de carne e osso mostram à IA exemplos de boas respostas e ficam classificando o que ela cospe, de bom a ruim, milhares de vezes. A IA ajusta os pesos de novo, mas agora não pra prever qualquer texto: pra preferir as respostas que as pessoas acharam úteis, claras e seguras. É aqui que ela finalmente aprende a responder de fato à sua pergunta, a seguir o seu pedido, e a dizer não pro que é perigoso. Repara que ninguém reescreveu o cérebro dela do zero; só ensinaram um jeito melhor de se comportar com o que já estava lá.

flowchart LR
  A[Montanha de texto] --> B[Pre-treino: aprende a lingua]
  B --> C[Previsor fluente, mas selvagem]
  C --> D[Feedback humano: aprende a ser util]
  D --> E[Assistente fluente e prestativo]

Essa segunda etapa é o que separa um modelo de linguagem cru do assistente que você abre todo dia. E é também por isso que duas IAs com pré-treino parecido podem ter personalidades bem diferentes: o ajuste, o jeito como cada uma foi domada, muda bastante o caráter delas. É a mesma diferença entre dois irmãos criados na mesma casa que saem com temperamentos opostos. A base é parecida; a domada foi diferente.

03O que isso explica (e o que não conserta)

As duas etapas explicam um monte de comportamento que antes parecia contradição. A fluência vem do pré-treino; a utilidade e a educação vêm do ajuste. Quando uma IA escreve lindo mas é "preguiçosa" ou esquisita pra seguir o que você pediu, na maioria das vezes é ajuste fraco em cima de um pré-treino forte. Saber separar os dois já te dá um diagnóstico que a maioria não tem.

E agora vem o ponto que eu mais quero que cole, porque é o que protege a sua pele no uso do dia a dia: nenhuma das duas etapas instala um detector de verdade. Pensa comigo. O pré-treino ensinou a prever o plausível. O ajuste ensinou a ser prestativo. Em nenhum momento alguém instalou uma peça que checa se aquilo é verdade. E ser prestativo e confiante não é a mesma coisa que estar certo, são coisas que não têm nada a ver. Por isso a IA mais bem-educada do mundo ainda te entrega um fato falso com a maior cara de paisagem, no maior tom de segurança. As etapas deixam a IA útil e agradável; não deixam ela infalível. Então a verificação, de novo, não é firula nem desconfiança exagerada: é o seu trabalho, e ele continua sendo seu. Você assina a entrega, não ela.

Nota: você vai ouvir o termo técnico para a segunda etapa, RLHF (aprendizado por reforço com feedback humano). Não precisa decorar a sigla. Precisa guardar a ideia: humanos ensinaram a IA a preferir respostas úteis, sobre uma base que só sabia prever texto.

Saiba mais: quantas pessoas domaram o ChatGPT original

Quando eu falo "pessoas classificam as respostas", dá a impressão de um exército, né? Pois o número real me surpreendeu. No trabalho que originou esse jeito de domar o modelo (o InstructGPT, da OpenAI, o avô do ChatGPT que você usa), foram cerca de 40 contratados fazendo essa classificação. Quarenta pessoas. A OpenAI manteve o time pequeno de propósito, pra conseguir alinhar bem o que era uma "boa resposta". Pensa no peso disso: o gosto de um grupo pequeno de gente ajudou a moldar como a IA conversa com o mundo inteiro. Isso te lembra que a "educação" da IA tem digital humana, e digital humana tem viés. Mais um motivo pra você não terceirizar o seu julgamento.

04Faça você

Faça você

Faça uma leitura nova de uma frustração comum com a IA, usando as duas etapas:

Lembre de uma vez em que a IA escreveu lindamente, mas (a) não fez exatamente o que você pediu, ou (b) afirmou algo errado com confiança.

Agora diagnostique pelas etapas:

Se ela escreveu bem mas ignorou o seu pedido: isso é mais sobre o ajuste (a etapa de ser útil), não sobre a fluência.
Se ela afirmou algo errado com confiança: isso é o limite que nenhuma das etapas resolve, porque nenhuma instala um detector de verdade.

Saber qual das duas explica cada frustração te tira da indignação genérica ("a IA é ruim") e te dá um diagnóstico preciso, que é o que permite ajustar o seu uso. E olha que virada: a maioria das pessoas trata a IA como uma coisa só, que "funciona ou não funciona". Você agora enxerga duas peças por dentro e sabe qual delas falhou. Isso é estar à frente, de verdade. Quanto mais artificial fica o mundo, mais o seu julgamento afiado vira o diferencial.

A última aula da trilha abre a peça que fez a linguagem destravar de vez: o transformer e a sua ideia central, a atenção, que é como a IA descobre o sentido de uma palavra olhando as outras.

Pratique

1. Quais são as duas grandes etapas de formação de uma IA como o ChatGPT?

Uma só: ela lê texto e já fica pronta para ajudar. Pré-treino (lê uma montanha de texto e aprende a língua) e ajuste com feedback humano (aprende a ser útil, seguir instruções e recusar o perigoso). Programação manual de respostas e depois testes.

2. Por que um previsor de linguagem cru (só com pré-treino) não serve direto como assistente?

Porque ele não sabe falar bem. Porque ele aprendeu a continuar texto, não a te ajudar; sem o ajuste, pode, por exemplo, responder a uma pergunta com mais perguntas. Porque ele não tem acesso à internet.

3. Mesmo depois das duas etapas, por que a IA ainda pode afirmar um fato falso com confiança?

Porque o ajuste foi mal feito; com ajuste perfeito, ela nunca erraria fatos. Porque nenhuma das duas etapas instala um detector de verdade: o pré-treino ensina a prever o plausível, e o ajuste ensina a ser prestativo, e ser prestativo e confiante não é estar certo. Porque ela está mentindo de propósito após o ajuste.

Para o quadro

Sobre as duas etapaspré-treino dá a fluência (aprender a língua de muito texto); o ajuste com feedback humano dá a utilidade (aprender a ajudar).

Sobre o caráterduas IAs com pré-treino parecido se comportam diferente porque foram domadas (ajustadas) de jeitos diferentes.

Sobre o limitenenhuma das etapas instala um detector de verdade. Útil e confiante não é o mesmo que certo. Verificar continua obrigatório.

O que você achou desta página?

Recomendaria esta página para alguém do seu time?