kyutai-labs/moshi
Uma IA de voz que escuta e fala ao mesmo tempo, como numa conversa humana de verdade, sem aquela troca de turnos travada. É a referência aberta de diálogo por voz em tempo real.
O que é, em uma frase honesta
Moshi é um modelo de conversa por voz que processa dois fluxos de áudio ao mesmo tempo, o seu e o dele, o que permite ouvir e falar simultaneamente. Isso quebra o padrão travado de assistente que só responde depois que você termina de falar, e habilita interrupção e diálogo fluido. A latência fica em torno de duzentos milissegundos na prática, perto da velocidade de uma conversa humana.
Foi criado pela Kyutai, um laboratório francês de ciência aberta, com código e pesos liberados.
Para que serve na prática
Serve para agentes de voz que conversam ao vivo, assistentes em tempo real e interfaces faladas onde a pessoa pode interromper e ser entendida. É a base técnica para experiências de voz que parecem naturais, sem o vai e vem mecânico de pergunta e resposta. Por rodar também em computadores Apple, dá para experimentar localmente sem depender de nuvem. Não é uma ferramenta de dublagem ou narração: o foco é a conversa viva.
Quando faz sentido pra você que lidera
Faz sentido entender Moshi quando a sua aposta envolve atendimento ou produto baseado em conversa por voz, e você quer saber o que é possível fora das plataformas fechadas. Ele é mais uma referência arquitetural aberta do que um produto pronto para colocar em produção amanhã: exige hardware robusto e tem arestas, como falta de suporte oficial a Windows e ausência de cancelamento de eco. A leitura estratégica é clara: a conversa por voz em tempo real, que parecia exclusiva de gigantes, já existe aberta.
Isso muda o que você pode exigir de fornecedores e do seu próprio time.
Por que está no mapa
Está no mapa porque é a referência aberta mais citada para diálogo por voz simultâneo, e o seu codec de áudio já é reaproveitado por outros projetos, sinal de adoção real além de estrelas. Ele materializa a fronteira do que a voz conversacional consegue fazer hoje. Conhecer Moshi é entender para onde caminham os atendentes e assistentes de voz que parecem gente.
Valeu pelo feedback. Isso ajuda a afiar a biblioteca.