Biblioteca · Repositório

vllm-project/vllm

Rodar local, inferência e interfaces próprias · Python · Apache-2.0 · ★ 81k · último commit 2026-05-24

O motor que faz o modelo de IA rodar rápido e barato quando muita gente usa ao mesmo tempo. É o equivalente a trocar um carro de passeio por um ônibus eficiente: serve muito mais gente com o mesmo combustível.

O que é, em uma frase honesta

vLLM é um motor de inferência, ou seja, o software que pega um modelo de IA e o coloca pra responder requisições de forma eficiente. Inferência, em quatro palavras: o modelo gerando respostas. O problema que ele ataca é caro e invisível: rodar um modelo grande pra muitos usuários ao mesmo tempo consome muita placa de vídeo e dinheiro.

O vLLM usa truques de engenharia (o famoso PagedAttention) pra atender mais gente por servidor, com mais velocidade e menos desperdício de memória. Nasceu na universidade de Berkeley e virou padrão da indústria.

Para que serve na prática

Serve pra quem vai hospedar a própria IA em escala em vez de pagar por uso a uma API. Uma empresa que quer rodar um modelo aberto pros seus milhares de funcionários ou clientes usa um motor como esse pra que a conta de infraestrutura não exploda. Na prática, ele é o que está por trás de muitos serviços de IA que você usa, fazendo o mesmo hardware servir muito mais gente. É a diferença entre o servidor aguentar dez pessoas ou mil com o mesmo custo.

Quando faz sentido pra você que lidera

Você nunca vai mexer no vLLM, mas vai sentir o efeito dele na fatura. Quando o seu time discute 'rodar nosso próprio modelo' versus 'pagar a API da OpenAI', o motor de inferência é uma das peças que decidem se a economia fecha. A decisão de líder é de custo e escala: hospedar a própria IA exige time, placa de vídeo e operação, mas a partir de certo volume sai muito mais barato, e ferramentas como essa são o que tornam essa conta viável.

Entender que existe essa camada te ajuda a fazer a pergunta certa: 'a que custo por mil respostas?'

Por que está no mapa

Com mais de 80 mil estrelas e categoria de inferência, virou o motor de referência pra servir modelos abertos em escala, adotado por empresas e provedores no mundo todo. Está no mapa porque representa a engenharia que torna a IA aberta economicamente viável: sem motores eficientes como esse, rodar IA própria seria caro demais pra valer a pena.

Ver no GitHub →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?