O transformer e a atenção: como o GPT junta tudo
A peça que destravou a linguagem em escala se chama transformer, e a sua ideia central é a atenção: cada palavra leva um cartão 'procuro' e um 'ofereço', e o sentido sai do casamento entre o pedido de uma e a oferta das outras. Sem matemática, só a intuição.
Lê essas duas frases comigo: "sentei no banco da praça" e "o banco me cobrou juros". É a mesma palavra, "banco", e ela significa duas coisas que não têm nada a ver. E você resolveu qual é qual sem nem perceber que resolveu, num piscar. Putz, pensa no tamanho disso: o seu cérebro fez uma conta complicadíssima de graça, no automático. A pergunta desta aula, que é a última e a mais funda da trilha, é simplesmente: como a IA faz a mesma coisa? A resposta é a ideia que destravou a IA moderna de vez, e ela tem até um nome bonito: atenção. Essa é a aula mais conceitual do curso, então vou te levar devagar, só na intuição, sem uma conta sequer. Pensa comigo. Beleza?
Leia estas duas frases: "sentei no banco da praça" e "o banco me cobrou juros". A palavra "banco" é a mesma, e significa coisas completamente diferentes. Você sabe qual é qual sem esforço, e a IA também. A pergunta desta aula, a última e mais profunda da trilha, é: como? A resposta é a ideia que destravou a IA moderna, e ela tem um nome bonito: atenção.
A ideia central desta aula. O "GPT" do ChatGPT vem de uma arquitetura chamada transformer, que foi o que fez a linguagem destravar em escala por volta de 2017. E o coração do transformer é uma ideia chamada atenção. O mecanismo, no fundo, é uma feira de trocas: cada palavra carrega dois cartões, um que diz o que ela procura ("sou 'banco', procuro algo que diga se sou móvel ou instituição") e outro que diz o que ela oferece ("sou 'juros', ofereço assunto de dinheiro"). Cada palavra compara o seu "procuro" com o "ofereço" de todas as outras, e onde casa, puxa peso forte. Isso é o que querem dizer com "dar mais atenção". Esta aula é a mais conceitual do curso, e fica no nível da intuição, sem matemática. Ao final, você vai entender, no essencial, o que faz o GPT funcionar.
01O problema: o sentido depende da vizinhança
As palavras não têm um sentido fixo, sozinhas; o sentido vem da companhia, de quem está do lado. "Manga" é fruta ou é parte da camisa? "Ponto" é de ônibus, de costura ou de vista? Não dá pra saber olhando a palavra isolada; você é obrigado a olhar a vizinhança. E aqui vai a sacada: qualquer sistema que queira entender linguagem de verdade tem, de algum jeito, que deixar cada palavra consultar as colegas em volta. Sem isso, não tem como.
Antes do transformer, os sistemas liam as palavras mais ou menos em fila, uma depois da outra, e sofriam pra fazer uma palavra lá do comecinho conversar com uma lá do fim da frase. Era igual tentar entender uma reunião ouvindo uma pessoa de cada vez, sem poder cruzar o que a primeira falou com o que a última disse vinte minutos depois. No fim, você perdeu o fio.
02A solução: cada palavra procura, e cada palavra oferece (atenção)
Dizer que "a palavra olha as outras e dá mais peso às que importam" até descreve o resultado, mas é meio mágico, não conta como ela decide o que importa. E eu não gosto de explicação mágica. O mecanismo de verdade é mais concreto, e por isso mais bonito. Imagina uma feira, e cada palavra chega nessa feira com dois cartões na mão:
- Um cartão "procuro": o que ela precisa para se resolver. "Banco" procura algo que diga se ela é móvel ou instituição.
- Um cartão "ofereço": o assunto que ela entrega a quem perguntar. "Juros" oferece "assunto de dinheiro"; "praça" oferece "assunto de lugar público".
A atenção é essa feira onde os cartões se encontram. Cada palavra pega o seu "procuro" e compara com o "ofereço" de todas as outras ao mesmo tempo, num lance só. Onde o pedido casa com a oferta, a ligação fica forte; onde não casa, fica fraca e some. O "procuro" de "banco" casa com o "ofereço" de "juros", então "banco" puxa um peso forte de "juros" e resolve o seu sentido como instituição. Aí você troca a frase pra "banco da praça" e o mesmíssimo "procuro" passa a casar com "praça", e o sentido vira o outro. Essa força de ligação onde o pedido encontra a oferta é exatamente o que chamam de "dar mais atenção". Não tem nada de místico: é casamento de cartão.
Cada palavra leva dois cartões; a atenção é o encontro entre o "procuro" de uma e o "ofereço" da outra:
Repara na elegância, porque é de cair o queixo: a IA não tem uma regra escrita dizendo "se aparecer juros, banco é instituição". Ninguém programou isso. Ela aprendeu sozinha, dos exemplos, o que cada palavra procura e o que cada uma oferece, e deixa os cartões se casarem na hora. A atenção é esse mercado de "procuro" e "ofereço" que o sistema aprendeu a tocar. E note como isso te baixa a IA do pedestal: o "milagre" do GPT entender ambiguidade é, no fundo, um leilão de cartões bem organizado.
Troque a frase abaixo e veja o vínculo pular: o arco grosso sai de "praça" e vai para "juros", e o sentido de "banco" vira junto. Passe o mouse (ou o foco do teclado) num termo para isolar a ligação.
Na atenção, cada palavra leva um cartão procuro e um ofereço. O sentido de banco se resolve pela palavra com que ela mais casa: com praça, vira assento; com juros, vira instituição. O contexto define o significado.
A mesma palavra, duas frases. O contexto que ela mais "olha" decide o sentido.
03O transformer, e por que isso importou tanto
O transformer é a arquitetura que pegou essa ideia de atenção e empilhou ela em camada sobre camada, deixando as palavras se olharem várias e várias vezes, todas em paralelo, pra ir refinando o sentido. Duas coisas o tornaram revolucionário, e eu falo isso sem o hype de marketing que você ouve por aí. Primeira: ele deixa qualquer palavra conversar com qualquer outra direto, por mais longe que estejam, e isso mata o problema do começo não alcançar o fim. Segunda: ele processa a frase inteira de uma vez, em paralelo, o que destravou treinar numa escala que antes era impossível.
A imagem que cola pra mim é essa: antes do transformer era um telefone sem fio, as palavras em fila passando o recado de boca em boca, e o começo se perdia no caminho até chegar lá na ponta. O transformer pegou todas e botou numa mesa redonda, cada uma olhando todas ao mesmo tempo, de uma vez. Foi essa dupla, atenção mais paralelismo, que destravou a linguagem em escala e tornou possíveis as LLMs que você usa hoje. Quando alguém solta "GPT", o "T" é de transformer. E você não precisa de mais detalhe técnico que isso pra entender o coração da coisa: o GPT é uma pilha de atenção, treinada pra prever a próxima palavra, em escala gigante. Só isso. Parece pouco, mas é o motor todo.
Saiba mais: o artigo que ligou a chave, e o nome perfeito dele
Essa ideia da atenção não veio sendo cozinhada há séculos; ela explodiu num artigo de 2017, do Google, e o título é uma das melhores piadas internas da área: "Attention Is All You Need", ou seja, "atenção é tudo de que você precisa". Pensa na ousadia do nome: eles jogaram fora um monte de peça complicada que os modelos da época carregavam e disseram, na prática, "deixa só a atenção que resolve". E resolveu. Quase tudo que você usa hoje, ChatGPT, Claude, Gemini, é neto direto desse paper. Um título sincero, sem hype, que envelheceu muito bem. Eu gosto disso.
04Faça você
Sinta a atenção funcionando na sua própria cabeça, que é de onde a ideia veio:
- Pegue uma palavra ambígua: "ponto", "manga", "vela", "banco".
- Escreva duas frases curtas em que ela significa coisas diferentes. Ex.: "acendi a vela" e "a vela do barco rasgou".
- Diga em voz alta o "procuro" dela: "sou 'vela', procuro algo que diga se sou de cera ou de barco".
- Em cada frase, sublinhe a outra palavra que respondeu ao seu pedido, e diga o "ofereço" dela: "acendi" oferece fogo; "barco" oferece náutica.
O casamento entre o seu "procuro" e o "ofereço" da palavra sublinhada é a ligação que ficou forte: foi nela que a sua atenção "pesou mais". A IA faz exatamente isso, com números, em todas as palavras ao mesmo tempo. Você acabou de sentir, na sua própria cabeça, o coração do que faz o GPT funcionar. Boa.
E pronto, você chegou ao fim da segunda travessia. Não pra virar engenheiro de IA, fica tranquilo, esse nunca foi o objetivo. Mas pra que, da próxima vez que alguém soltar "transformer", "atenção" ou "rede neural" na sua frente, você não sinta aquele frio de que é assunto de outro planeta, coisa pra gênio. Você abriu o capô e viu com os próprios olhos: o motor, no fundo, é feito de ideias simples postas numa escala absurda. E é exatamente isso que te coloca à frente de muita gente que ainda trata tudo isso como magia. Quem entende o mecanismo para de ter medo dele e começa a mandar nele. Quanto mais artificial o mundo fica, mais esse tipo de lucidez, saber o que é a ferramenta de verdade, vira o seu diferencial humano. Você está bebendo dessa água cedo. Beleza? Próxima.
Pratique
1. Como a IA descobre que 'banco' significa coisas diferentes em 'banco da praça' e 'banco me cobrou juros'?
2. O que é a 'atenção', no essencial?
3. O que tornou o transformer revolucionário (sem exagero de marketing)?
Para o quadro
Sobre a atençãoo sentido de uma palavra vem da companhia. Cada palavra leva um cartão "procuro" e um "ofereço"; a atenção casa o "procuro" de uma com o "ofereço" das outras, e onde casa, a ligação pesa mais. Isso é "dar mais atenção".
Sobre o transformeré a arquitetura que empilhou a atenção e processou a frase em paralelo. O 'T' de GPT é dele.
Sobre o motoro GPT é uma pilha de atenção, treinada para prever a próxima palavra, em escala gigante. Ideias simples postas em escala.
Valeu pelo feedback. Isso ajuda a afiar a próxima aula.