Fundamentos: Como a IA Funciona · Aula F3

Tokens e janela de contexto: como a IA lê e o que ela segura

A IA não lê letras nem documentos inteiros como você. Ela lê em pedaços (tokens) e segura uma quantidade limitada de uma vez (a janela de contexto). Esses dois fatos explicam vários comportamentos estranhos.

Já pediu à IA para contar quantas letras "r" tem numa palavra e ela errou feio? Ou colou um documento longo e ela pareceu "esquecer" justo o trecho do meio? Pense comigo: os dois comportamentos parecem defeitos bobos, daqueles de dar risada e perder a confiança na ferramenta. E na verdade são consequências diretas, quase elegantes, de como a IA enxerga e segura o texto.

Eu demorei pra sacar isso, e quando saquei mudou o jeito como eu dou trabalho pra ela. Porque essas duas "falhas" não são burrice da IA: são duas regras físicas do motor. E o legal é que, sabendo as duas, você para de cair nelas e começa a jogar a favor delas. Esta aula explica as duas de uma vez. Beleza? Bora.

A ideia central desta aula. A IA não lê texto do jeito que você lê. Ela não vê letras individuais nem o documento inteiro de uma vez. Ela vê o texto quebrado em tokens, pedaços que costumam ser uma palavra ou parte de uma palavra. E ela só segura uma quantidade limitada de tokens de uma vez: a janela de contexto, a memória de trabalho dela. Esses dois fatos, simples, explicam um monte de comportamento que parece misterioso. Ao final, você vai entender o que é um token, o que é a janela de contexto, e por que saber disso te deixa um operador melhor.

01Token: a IA lê em pedaços

Pense no token assim: quando você dá um texto à IA, a primeira coisa que acontece, antes de qualquer "inteligência", é o texto ser picado em pedaços chamados tokens. Um token costuma ser uma palavra curta inteira ("casa") ou um pedaço de uma palavra mais longa ("inevitavelmente" pode virar "inevita" + "velmente"). A IA trabalha com esses pedaços, não com letras soltas. É como se ela lesse o mundo em blocos de montar, e não em letrinhas.

O mesmo texto, como você lê e como a IA lê:

E isso explica o erro das letras, que é ouro pra entender. Quando você pede para a IA contar os "r" de uma palavra, ela está olhando tokens, não letras. Contar letras dentro de um token é um trabalho estranho para ela, como pedir para você contar os átomos de uma palavra que você lê como um bloco só. Você lê "renegociação" e não conta as letras uma a uma, lê o bloco inteiro de cara. A IA faz parecido. Não é burrice; é que a unidade de leitura dela não é a letra. Putz, quanta gente desiste da IA por causa disso, achando que ela é "burra", quando na real estava pedindo pra ela fazer a única coisa que o desenho do motor não favorece.

02A janela de contexto: a memória de trabalho

O segundo fato é o tamanho do que a IA segura de uma vez, e aqui entra um conceito que vale o seu peso em ouro: a janela de contexto. Tudo que ela considera numa resposta (a sua pergunta, o documento que você colou, a conversa até ali) precisa caber numa janela de contexto: um espaço de memória de trabalho que é grande, mas finito. Não cabe um número infinito de tokens ali. Pense numa mesa de trabalho: cabe muita coisa, mas não cabe tudo, e o que não cabe fica de fora.

A janela de contexto é um espaço finito; o que entra é uma escolha:

Aqui é fácil pegar uma intuição errada, então vamos devagar, pense comigo. A IA não lê a janela aos poucos, de um jeito que o começo "vá sumindo" com o tempo, como se a memória dela vazasse. Não é isso. Ela considera tudo que está na janela ao mesmo tempo, e nada decai sozinho. O que de fato dá errado são duas coisas, e elas são diferentes (essa distinção quase ninguém faz, e é ela que te deixa um operador melhor):

Quando o conteúdo passa do tamanho da janela: o que não coube é cortado, de uma vez (a ferramenta descarta o excesso, em geral o mais antigo). Não é um esquecimento gradual, é um corte seco. A IA nunca chegou a ver aquilo.
Quando o conteúdo coube, mas é longo: aqui está a parte que quase ninguém sabe. A IA tende a pesar mais o começo e o fim de um texto longo, e a sub-ler o meio. Num contrato de 60 páginas que coube inteiro na janela, o risco não é "o começo sumiu", é "o miolo foi lido por cima".

Veja os dois fatos ao vivo. Digite o seu próprio texto abaixo e repare como uma palavra longa vira dois ou três blocos (tokens). Depois encolha a janela e veja o excesso ser cortado de uma vez, em bloco, não esquecido aos poucos.

A IA lê o texto em pedaços (tokens), não em letras. Tudo precisa caber numa janela de contexto finita: o que passa do tamanho da janela é cortado de uma vez (corte seco), não esquecido aos poucos.

Digite e mexa na janela: o texto vira tokens e o que não cabe é cortado seco, não esquecido devagar.

03Por que saber disso te torna melhor

Boa. Esses dois fatos viram conselho prático na hora. Como a IA lê em tokens, não confie nela para contar letras ou caracteres com precisão; use uma ferramenta pra isso e siga sua vida. Como a IA atende a tudo de uma vez mas sub-lê o meio de textos longos, em documentos grandes não cole tudo esperando que ela pese o conjunto inteiro por igual: dê os trechos relevantes, ponha o que mais importa no começo ou no fim (não enterrado no meio), ou divida o trabalho (como você viu na aula de dividir tarefas). Tem um bônus econômico nisso também: menos token jogado à toa é resposta mais rápida e mais barata. Dar o mínimo de contexto pra ter o máximo de clareza não é só qualidade, é eficiência.

E o mais importante, guarde isso: a janela de contexto é exatamente o conceito que sustenta o módulo "contexto é tudo" da travessia principal. Aqui você vê por dentro por que o contexto é finito e precisa ser escolhido. Não é firula, é a mecânica por baixo da habilidade que mais separa quem extrai ouro da IA de quem a acha "mais ou menos".

Nota: "janela maior" virou argumento de venda ("este modelo segura um livro inteiro"). É útil, mas não é mágica: mesmo numa janela grande, encher de informação irrelevante atrapalha mais do que ajuda. O que importa não é o tamanho da janela, é o que você escolhe colocar nela.

Saiba mais: o "perdido no meio" tem nome e tem pesquisa

Esse negócio de a IA pesar mais o começo e o fim e sub-ler o meio não é achismo meu. Tem um estudo bem conhecido, "Lost in the Middle" (Liu e colegas, 2023), que mediu isso em vários modelos e achou uma curva em U: a IA usa muito bem a informação que está no começo ou no fim do contexto, e o desempenho cai de forma forte quando a informação importante está plantada no meio de um texto longo, mesmo em modelos feitos pra contexto grande. Por isso o conselho de "ponha o que mais importa no começo ou no fim" não é mania, é desenho do motor. Quando você é obrigado a colar muita coisa, vale até repetir o ponto-chave perto do fim.

04Faça você

Faça você

Faça você mesmo a tokenização, no olho, para sentir como a IA lê:

Pegue esta frase: "a renegociação foi inevitavelmente adiada". Em vez de ler letra por letra, quebre-a em pedaços do tamanho de palavras curtas ou raízes: "a" / "rene" / "gociação" / "foi" / "inevita" / "velmente" / "adiada". Pronto, você aproximou o que a IA faz: leu em pedaços, não em letras.

Agora entenda a consequência: se eu pedisse para você contar os "i" dessa frase olhando só esses blocos, sem reabrir cada um letra por letra, seria estranho e fácil de errar. É exatamente o que acontece quando você pede à IA para contar letras. Não é burrice dela; é a unidade de leitura.

A próxima aula abre a peça mais básica do "modelo neural", e faz isso numa planilha que você pode montar: o neurônio.

Pratique

1. Por que a IA às vezes erra ao contar quantas letras uma palavra tem?

Porque ela não sabe contar. Porque ela lê o texto em tokens (pedaços do tamanho de palavras), não em letras individuais; contar letras dentro de um bloco não é natural para ela. Porque a janela de contexto está cheia.

2. O que é a janela de contexto?

A velocidade com que a IA responde. A memória de trabalho finita da IA: tudo que ela considera numa resposta (pergunta, documento, conversa) precisa caber nela. Um arquivo onde a IA salva todas as conversas para sempre.

3. Você cola um documento longo (que coube na janela) e a IA ignora um detalhe importante que estava no meio dele. Por quê?

Porque o começo do documento empurrou o meio para fora da memória. Porque a IA atende à janela inteira de uma vez, mas tende a pesar mais o começo e o fim, e a sub-ler o meio de textos longos. Porque a IA esquece o que leu há mais tempo.

Para o quadro

Sobre tokensa IA lê o texto em pedaços (tokens), não em letras. Por isso erra ao contar caracteres: a unidade de leitura dela não é a letra.

Sobre a janelaa IA atende a tudo que cabe de uma vez. O que excede o tamanho é cortado (não decai aos poucos); o que cabe mas é longo tem o meio sub-lido. Ponha o importante no começo ou no fim.

Sobre o usoo que importa não é o tamanho da janela, é o que você escolhe colocar nela. É o 'contexto é tudo' visto por dentro.

Pra levarvocê acabou de trocar duas frustrações por duas alavancas. O "ela não conta letra" e o "ela esquece o meio" deixam de ser motivo pra largar a ferramenta e viram regra de como você dá trabalho pra ela: contar, na ferramenta certa; o que importa, no começo ou no fim. Quanto mais você entende o motor, menos você briga com ele e mais ele rende pra você. Beleza? Próxima.

O que você achou desta página?

Recomendaria esta página para alguém do seu time?