Biblioteca · Paper · 2018 · NAACL

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.

Estabeleceu o paradigma 'pre-train + fine-tune' que dominou NLP de 2018 a 2022 e ainda é base de buscas, classificadores e sistemas de recomendação em produção.

A leitura do Thiago

BERT é o motor silencioso da busca moderna, o próprio Google anunciou em 2019 que passou a usá-lo em quase todas as queries em inglês. Em termos executivos: o Google ensinou uma máquina a ler texto preenchendo lacunas (como aqueles testes escolares de 'complete a frase'), e descobriu que esse simples exercício, feito em escala gigantesca, fez a máquina entender contexto de maneira surpreendentemente sofisticada. A grande virada foi mostrar que dá para treinar UM modelo genérico em texto bruto da internet e depois adaptá-lo barato para qualquer tarefa específica, análise de sentimento, classificação de e-mails, busca semântica.

Para uma corporação brasileira, BERT (e suas variantes em português, como BERTimbau) é a tecnologia que já está, hoje, dentro de seus chatbots de SAC, em sistemas de triagem jurídica, em motores de busca interna e em ferramentas de people analytics. Mesmo na era dos LLMs gigantes, BERT continua sendo a opção mais barata e rápida para tarefas específicas de classificação, algo que todo CIO deveria considerar antes de pagar por GPT-4 em tarefas simples.

O que muda na prática

A implicação prática mais direta do BERT para quem decide é uma economia que quase ninguém faz: nem toda tarefa de IA precisa de um modelo generativo caro. Existe uma diferença grande entre pedir para a IA classificar (este e-mail é reclamação ou elogio? este contrato tem clausula de rescisão?) e pedir para ela gerar texto novo. Classificar é mais barato, mais rápido e mais previsível, e é exatamente para isso que modelos da família BERT servem.

Se a sua equipe está pagando por chamadas a um modelo de ponta para tarefas que são, no fundo, marcar uma caixinha entre opções conhecidas, você provavelmente está gastando dez a cem vezes mais do que precisaria. No dia a dia da empresa, isso aparece em triagem: classificar tickets de atendimento por urgência, rotear e-mails para o setor certo, marcar documentos jurídicos por tipo, detectar sentimento em avaliações de clientes, filtrar candidatos por aderência a uma vaga. Todas essas são tarefas de classificação de alto volume e baixa criatividade.

A pergunta que muda sua arquitetura de custo é: esta tarefa exige a IA inventar uma resposta, ou só escolher entre categorias que eu já conheço? Se for escolher, um classificador especializado e barato resolve, roda local, não depende de fornecedor externo e protege melhor dados sensíveis porque pode ficar dentro da sua infraestrutura. Para o líder, o questionamento ao fornecedor fica concreto: peça que ele justifique a escolha do modelo por tarefa.

Um fornecedor maduro vai dizer que usa modelos pequenos e baratos para classificação e reserva os grandes para geração e raciocínio. Um fornecedor que usa o modelo mais caro para tudo, ou está inflando o custo, ou não domina o tema. Em iniciativas de alto volume (milhões de itens por mês), essa distinção é a diferença entre um caso de uso que se paga e um que sangra orçamento sem ninguém entender por quê.

O abstract original (inglês)

We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. BERT is designed to pre-train deep bidirectional representations from unlabeled text by jointly conditioning on both left and right context in all layers. BERT obtains new state-of-the-art results on eleven natural language processing tasks.

nlppretrainingtransformersfoundational

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?