Biblioteca · Paper · 2024 · arXiv (Mistral AI)

Mixtral of Experts

Jiang, A. Q., Sablayrolles, A., Roux, A., Mensch, A., Savary, B., et al.

Primeiro modelo open-source competitivo baseado em Mixture of Experts (MoE), arquitetura que GPT-4 e Gemini usam internamente. Mostrou que MoE é viável fora dos laboratórios fechados.

A leitura do Thiago

Mixtral, da francesa Mistral AI, popularizou uma arquitetura que vinha sendo segredo dos grandes laboratórios: Mixture of Experts (MoE). A analogia organizacional é perfeita: em vez de UM cérebro generalista que faz tudo (modelo denso tradicional), o MoE é como uma empresa com vários especialistas internos, para cada pergunta, um 'roteador' decide quais 2 especialistas (entre 8 disponíveis) vão responder, e combina suas saídas. Resultado: você tem o desempenho de um modelo gigante de 46 bilhões de parâmetros, mas em cada chamada usa apenas 13 bilhões, economia massiva.

Em linguagem executiva: é design organizacional aplicado a IA, e funciona pelos mesmos motivos. Para corporações brasileiras, três implicações práticas: (1) explica por que serviços como GPT-4 e Gemini conseguem ser baratos relativamente ao tamanho, eles usam MoE; (2) Mistral AI virou referência europeia em IA soberana e open-source, uma alternativa estratégica relevante para empresas brasileiras preocupadas com dependência de fornecedores americanos ou chineses; (3) a metáfora MoE inspira repensar como organizar equipes de especialistas dentro de sua empresa, roteamento dinâmico de demanda para experts certos é tão valioso em IA quanto em consultoria corporativa.

O que muda na prática

Mixture of Experts (mistura de especialistas) parece assunto de engenheiro, mas a implicação para quem decide é sobre custo e sobre como você lê a conta da IA. A ideia: em vez de um modelo gigante que aciona todo o seu cérebro para cada pergunta, um roteador escolhe só dois especialistas internos por vez. Você tem a qualidade de um modelo enorme pagando o processamento de um modelo pequeno.

Na prática, é por isso que serviços de fronteira conseguem cobrar relativamente barato pelo que entregam, e é o motivo pelo qual a pergunta 'por que esse modelo é tão mais barato que aquele do mesmo tamanho?' tem uma resposta arquitetural concreta, não mágica. A decisão concreta para o líder é de diversificação de fornecedor. A Mistral, francesa, virou referência europeia de IA aberta justamente popularizando essa arquitetura fora dos laboratórios fechados americanos.

Para uma empresa brasileira preocupada em não depender exclusivamente de fornecedores dos EUA ou da China (por preço, por geopolítica ou por exigência de cliente), isso abre uma terceira porta real. Ao desenhar sua estratégia de IA, vale ter mais de uma opção testada e pronta para trocar, e o ecossistema MoE aberto é parte concreta desse plano B. Há ainda uma leitura organizacional que rende mais do que parece.

O MoE funciona pelo mesmo motivo que uma boa consultoria funciona: roteamento dinâmico de cada demanda para o especialista certo, em vez de um generalista tentando dar conta de tudo. Quem opera equipes técnicas ou de atendimento pode usar a metáfora literalmente para repensar a triagem: a maior parte do desperdício de capacidade vem de mandar todo problema para todo mundo, ou de fixar pessoas em filas erradas. O ganho de eficiência do MoE em IA é o mesmo ganho que um bom desenho de roteamento de chamados ou de leads dá na sua operação.

O abstract original (inglês)
We introduce Mixtral 8x7B, a Sparse Mixture of Experts (SMoE) language model. Mixtral has the same architecture as Mistral 7B, with the difference that each layer is composed of 8 feedforward blocks (i.e. experts). For every token, at each layer, a router network selects two experts to process the current state and combine their outputs.
llmmixture-of-expertsopen-sourcemistral
Ler o paper original →
O que você achou desta página?
Recomendaria esta página para alguém do seu time?