Biblioteca · Repositório

kyutai-labs/moshi

Voz e áudio · Python e Rust · Apache-2.0 e MIT (código) / CC-BY-4.0 (pesos)

Uma IA de voz que escuta e fala ao mesmo tempo, como numa conversa humana de verdade, sem aquela troca de turnos travada. É a referência aberta de diálogo por voz em tempo real.

O que é, em uma frase honesta

Moshi é um modelo de conversa por voz que processa dois fluxos de áudio ao mesmo tempo, o seu e o dele, o que permite ouvir e falar simultaneamente. Isso quebra o padrão travado de assistente que só responde depois que você termina de falar, e habilita interrupção e diálogo fluido. A latência fica em torno de duzentos milissegundos na prática, perto da velocidade de uma conversa humana.

Foi criado pela Kyutai, um laboratório francês de ciência aberta, com código e pesos liberados.

Para que serve na prática

Serve para agentes de voz que conversam ao vivo, assistentes em tempo real e interfaces faladas onde a pessoa pode interromper e ser entendida. É a base técnica para experiências de voz que parecem naturais, sem o vai e vem mecânico de pergunta e resposta. Por rodar também em computadores Apple, dá para experimentar localmente sem depender de nuvem. Não é uma ferramenta de dublagem ou narração: o foco é a conversa viva.

Quando faz sentido pra você que lidera

Faz sentido entender Moshi quando a sua aposta envolve atendimento ou produto baseado em conversa por voz, e você quer saber o que é possível fora das plataformas fechadas. Ele é mais uma referência arquitetural aberta do que um produto pronto para colocar em produção amanhã: exige hardware robusto e tem arestas, como falta de suporte oficial a Windows e ausência de cancelamento de eco. A leitura estratégica é clara: a conversa por voz em tempo real, que parecia exclusiva de gigantes, já existe aberta.

Isso muda o que você pode exigir de fornecedores e do seu próprio time.

Por que está no mapa

Está no mapa porque é a referência aberta mais citada para diálogo por voz simultâneo, e o seu codec de áudio já é reaproveitado por outros projetos, sinal de adoção real além de estrelas. Ele materializa a fronteira do que a voz conversacional consegue fazer hoje. Conhecer Moshi é entender para onde caminham os atendentes e assistentes de voz que parecem gente.

Ver no GitHub →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?