Biblioteca · Repositório

openai/whisper

Voz e áudio · Python · MIT · ★ 100k · último commit 2026-04-15

É o tradutor de fala em texto da OpenAI, que transcreve áudio em dezenas de idiomas com qualidade alta. É a peça que transformou transcrição de tarefa cara e manual em algo barato e automático.

O que é, em uma frase honesta

Whisper é um modelo de reconhecimento de fala da OpenAI: você dá um áudio, ele devolve o texto. Funciona em muitos idiomas, incluindo português, aguenta sotaque e ruído razoavelmente bem, e pode até traduzir enquanto transcreve. É aberto e gratuito pra rodar, o que o tornou a base de boa parte das ferramentas de transcrição que apareceram nos últimos anos. Pense num estagiário incansável que escuta qualquer áudio e digita o que ouviu.

Para que serve na prática

Serve pra qualquer lugar onde voz vira informação que você quer aproveitar. Transcrever reuniões e gerar atas automáticas, legendar vídeos de treinamento ou marketing, virar texto as ligações do time de vendas pra análise, ou alimentar uma central de atendimento que entende o que o cliente fala. Combinado com um modelo de linguagem por cima, vira a porta de entrada pra resumir, classificar e agir sobre tudo que foi dito numa conversa.

Quando faz sentido pra você que lidera

Faz sentido olhar pra essa categoria quando a sua empresa produz muita conversa que hoje se perde: reuniões sem registro, ligações de vendas que ninguém revisa, atendimento que vira só sensação. Transcrição automática transforma esse áudio perdido em dado pesquisável e analisável, e isso muda processo, não só produtividade. A decisão prática inclui privacidade (transcrever conversa de cliente é dado sensível, e você pode rodar localmente pra não mandar pra fora) e o cuidado de que a transcrição não é perfeita, então onde a precisão é crítica ainda há revisão humana.

Por que está no mapa

Com mais de 100 mil estrelas, é o padrão de fato em transcrição aberta de áudio e a base de incontáveis produtos no mercado. Está no mapa porque representa uma fronteira da IA além do texto: a máquina que entende voz. Para a maioria das empresas, é uma das aplicações de IA com retorno mais imediato e fácil de enxergar, porque toda organização gera áudio que hoje desaparece sem virar valor.

Ver no GitHub →
O que você achou desta página?
Recomendaria esta página para alguém do seu time?