Biblioteca · Paper · 2022 · NeurIPS

Training Compute-Optimal Large Language Models (Chinchilla)

Hoffmann, J., Borgeaud, S., Mensch, A., Buchatskaya, E., Cai, T., et al.

Revelou que GPT-3 e similares estavam 'subtreinados', o ótimo é aumentar DADOS proporcionalmente a parâmetros. Reorientou toda a indústria sobre como gastar dinheiro em treinamento de LLMs.

A leitura do Thiago

Chinchilla é o paper que reescreveu a economia do treinamento de LLMs. Até 2022, a estratégia era 'quanto maior o modelo, melhor', e empresas gastavam dezenas de milhões em modelos cada vez mais parrudos. A DeepMind, com matemática rigorosa, provou que esta estratégia era ECONOMICAMENTE INEFICIENTE: dado um orçamento de computação fixo, é melhor um modelo MENOR treinado em MUITO MAIS DADOS do que um modelo gigante mal treinado.

Demonstraram isso treinando 'Chinchilla' (70 bilhões de parâmetros) que superou modelos 4x maiores (Gopher, GPT-3). Em linguagem de negócios: a regra prática descoberta, para cada parâmetro do modelo, treinar com cerca de 20 tokens, virou a 'lei de Chinchilla'. Para executivos brasileiros, três implicações: (1) toda decisão de fazer 'fine-tuning' ou treinar modelo próprio deve passar por uma análise tipo Chinchilla, frequentemente é mais barato e melhor um modelo menor com mais dados específicos do que o oposto; (2) explica por que LLaMA 2 e 3 (que seguem Chinchilla) entregam mais por menos do que o GPT-3 original, fornecedores que aplicam estas leis têm vantagem real de custo; (3) o gargalo da indústria deixou de ser 'parâmetros' e passou a ser 'dados de qualidade', daí a corrida por bibliotecas digitalizadas, dados sintéticos e licenças com editoras.

O que muda na prática

Chinchilla é o paper que todo executivo prestes a aprovar um projeto de treinar ou ajustar um modelo próprio precisa entender, porque ele reescreve a planilha de custo. A intuição antiga, ainda dominante em muita conversa de fornecedor, é "modelo maior é melhor, então vamos pagar pelo maior". O paper provou matematicamente que isso é desperdício de orçamento: para um custo de computação fixo, um modelo menor treinado com muito mais dados ganha de um modelo gigante mal treinado.

A consequência direta para quem decide é uma pergunta que corta proposta inflada pela metade: "este projeto está dimensionado para ter dados suficientes para o tamanho de modelo proposto, ou estamos pagando por parâmetros que nunca serão bem treinados?". Na prática operacional, isso muda onde você coloca o esforço e o dinheiro. O gargalo deixou de ser tamanho de modelo e passou a ser dados de qualidade.

Para a sua empresa, isso significa que o ativo competitivo não é alugar o modelo mais parrudo, é ter dados próprios bem organizados, limpos e específicos do seu domínio (histórico de atendimento, contratos, manuais, registros de operação). Antes de aprovar qualquer iniciativa de fine-tuning, a pergunta de gestão é se a casa de dados está arrumada. Quase sempre, o retorno de seis meses investidos em organizar e rotular dados internos supera o de pagar por um modelo maior rodando sobre dado bagunçado.

A terceira implicação é de escolha de fornecedor e custo recorrente. Modelos que seguem a lei de Chinchilla (a família LLaMA é o exemplo público) entregam mais desempenho por real gasto em inferência do que modelos antigos mal dimensionados. Quando você compara opções de IA para colocar em produção, custo por token e desempenho por token são métricas de negócio, não detalhe técnico, porque escalam diretamente com o seu volume.

Peça ao fornecedor o desempenho por custo no seu caso de uso real, não o número de parâmetros no material de marketing. Um modelo menor e bem treinado pode reduzir sua conta mensal de IA em ordens de magnitude sem perda de qualidade percebida pelo usuário.

O abstract original (inglês)

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant.

llmscaling-lawsdeepmindefficiency

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?