Fundamentos: Como a IA Funciona · Aula F5

Embeddings: como a IA mede significado

A IA transforma cada palavra num punhado de números, como coordenadas num mapa. Palavras de significado parecido caem perto umas das outras. É assim que ela 'entende' que médico e enfermeiro têm a ver.

Pensa comigo um segundo: como é que uma máquina, que no fundo só faz conta, "sabe" que médico e enfermeiro têm a ver um com o outro, e que médico e banana não têm? Putz, essa foi uma das coisas que mais me travaram quando comecei. Eu achava que tinha alguém escrevendo uma lista gigante de sinônimos à mão, e tudo bem achar isso, é o palpite natural. Mas a resposta de verdade é mais bonita, e mais simples, do que parece. E quando ela cai a ficha, você para de ver a IA como caixa-preta mágica e começa a ver o mecanismo. Eu vou te mostrar pela imagem que destravou pra mim: um mapa. Beleza? Vem comigo.

A IA "sabe" que médico e enfermeiro têm a ver um com o outro, e que médico e banana não têm. Se ela só prevê palavras, como ela captura esse parentesco de significado? A resposta é uma das ideias mais elegantes da área, e fica simples quando você a vê como um mapa.

A ideia central desta aula. A IA transforma cada palavra num punhado de números, que funcionam como coordenadas num mapa. Esses números se chamam embedding. O truque genial é que o mapa é organizado por significado: palavras parecidas caem perto umas das outras, e palavras sem relação caem longe. Médico fica perto de enfermeiro e hospital; banana fica num bairro completamente diferente do mapa. É assim que a IA mede semelhança de significado: medindo distância. Ao final, você vai entender o que é um embedding e por que essa ideia explica desde a busca inteligente até a IA "entender" o que você quer dizer.

01Cada palavra vira uma posição num mapa

Imagine comigo um mapa gigante, do tamanho de uma cidade, onde cada palavra tem um endereço dado por números (as coordenadas). Esse endereço não caiu do céu nem foi sorteado: ele é aprendido de forma que palavras usadas em contextos parecidos morem em endereços vizinhos. Como "rei" e "rainha" aparecem em textos parecidos, eles acabam na mesma rua. Como "rei" e "alface" quase nunca aparecem juntos, ficam em pontas opostas da cidade. Ninguém sentou e escreveu esse mapa à mão; ele se desenhou sozinho, a partir de quem anda junto com quem no texto.

Palavras de significado parecido caem perto no mapa; sem relação, caem longe:

médico enfermeiro hospital bairro "saúde" banana guitarra longe, sem relação

O mapa de verdade não tem duas dimensões como esse desenho; tem centenas. Eu sei, isso é impossível de desenhar e a cabeça da gente trava só de imaginar, e tudo bem, ninguém precisa visualizar isso. Guarda só a ideia, que vale igualzinho em duas ou em quinhentas dimensões: significado vira posição, e semelhança vira proximidade. Esse é o pulo do gato.

Produza a regra com a própria mão: arraste o ponto "?" pelo mapa e veja de quem ele fica perto. Largue-o no meio dos termos de saúde e ele vira "saúde"; arraste para o canto das frutas e ele vira "frutas". Perto é parecido.

Cada palavra vira uma posição num mapa: significado parecido cai perto, sem relação cai longe. Num mapa 2D a forma e o tamanho dos grupos podem enganar; o que vale é a vizinhança, quem está perto de quem.

Arraste o ponto pelo mapa: a vizinhança (quem está perto) é o que vale, não o desenho do cluster.

02Por que isso é tão útil

Quando significado vira distância, um monte de coisa que parecia difícil fica fácil, e é aqui que isso encosta no seu trabalho. "Encontre documentos parecidos com este" vira "encontre os endereços mais próximos no mapa". "O cliente perguntou sobre X, qual artigo da nossa base responde?" vira achar o artigo cujo endereço está mais perto da pergunta, mesmo que ele use outras palavras. É por isso que a busca de hoje entende sinônimo: ela não sai caçando a palavra exata que você digitou, ela vai pra vizinhança no mapa de significado. Lembra do bibliotecário que sabe onde fica cada assunto, mesmo que você não acerte o nome do livro? É isso, só que com números.

Esse mesmo mecanismo está por trás de a IA "entender" o que você quis dizer mesmo quando você escreve diferente do que ela esperava. "Quero cancelar" e "como faço para encerrar minha conta" caem perto no mapa, então ela trata as duas como o mesmo pedido. O embedding é o que pega palavras diferentes com o mesmo sentido e bota no mesmo bairro. E pensa no que isso te economiza: você não precisa antecipar cada jeito que o cliente vai falar a mesma coisa. A vizinhança faz esse trabalho.

Nota: este é o quarto e último dos conceitos de base desta trilha (previsão, token, janela de contexto e embedding). Com esses quatro, você entende, por dentro, quase tudo que importa no comportamento de uma LLM. O resto é detalhe ou aprofundamento.
Saiba mais: quantas dimensões tem esse mapa de verdade

Eu falei "centenas de dimensões" pra não assustar, mas vou te dar o número real de um modelo que roda em produção hoje. O text-embedding-3-large, da OpenAI, coloca cada pedaço de texto num mapa de 3072 dimensões por padrão. Três mil. E tem um detalhe econômico esperto: dá pra cortar esse mapa pra 1024 ou 256 dimensões e economizar muito espaço de armazenamento, perdendo só um tiquinho de precisão. Ou seja, na prática você escolhe o tamanho do mapa pelo seu bolso. Mais um lugar onde a conta de token e custo aparece, beleza?

03Faça você

Faça você

Faça o mapa, no papel, com palavras do seu trabalho:

  1. Escreva cinco termos da sua área. Por exemplo, em finanças: "margem", "fluxo de caixa", "imposto", "almoço", "guitarra".
  2. Agrupe-os por proximidade de significado, como bairros: os que têm a ver ficam juntos; os que não têm ficam longe. "Margem", "fluxo de caixa" e "imposto" formam um bairro; "almoço" e "guitarra" ficam isolados.

Esse agrupamento que você fez no olho é exatamente o que um embedding faz com números: vizinhança no mapa significa parentesco de sentido. Repara que você não precisou de uma fórmula pra isso; e a IA também não "entende" o sentido como você entende, ela só organiza a vizinhança. E mesmo assim já resolve um caminhão de coisa.

E aqui fica o que eu mais quero que você leve: quanto mais você sabe o que tem embaixo do capô, menos a IA te parece mágica e mais ela te parece ferramenta. Mágica intimida; ferramenta a gente pega e usa. Você acabou de tirar o "significado" do terreno do místico e botar no terreno da geografia, distância e vizinhança. Esse tipo de clareza é o que separa quem usa a IA com confiança de quem usa com medo, e você está virando o primeiro.

A próxima aula fecha o "como a IA aprende": as duas etapas que transformam um previsor de texto cru no assistente prestativo que você usa.

Pratique

1. O que é um embedding?

2. Como o embedding faz a busca moderna entender sinônimos e reformulações?

3. Por que a ideia de embedding funciona mesmo o mapa tendo centenas de dimensões, e não duas?

Para o quadro

Sobre o embeddingcada palavra vira coordenadas num mapa de significado. Parecidas ficam perto; sem relação, longe.
Sobre a utilidadesignificado virou distância, então 'achar parecido' vira 'achar o vizinho'. É a busca que entende sinônimos.
Sobre os quatro pilaresprevisão, token, janela de contexto e embedding. Com esses quatro, você entende quase tudo no comportamento de uma LLM.
O que você achou desta página?
Recomendaria esta página para alguém do seu time?