Wan-Video/Wan2.2
É a evolução do gerador de vídeo da Alibaba, com uma arquitetura mais esperta que entrega mais qualidade sem pesar mais no processamento. Acrescenta geração a partir de áudio e animação de personagem, e mantém uma versão que roda em placa de consumidor.
O que é, em uma frase honesta
Wan 2.2 é a geração seguinte da família de modelos de vídeo aberta da Alibaba. A novidade técnica é adotar uma arquitetura de especialistas, onde um modelo cuida do esboço inicial da cena e outro refina os detalhes, o que aumenta a capacidade sem subir o custo de processamento por passo. Foi treinado com bem mais dados que a versão anterior, o que melhora movimento e estética, e ampliou os modos: texto para vídeo, imagem para vídeo, fala para vídeo e animação de personagem.
A versão de 5 bilhões de parâmetros gera vídeo em 720p numa RTX 4090.
Para que serve na prática
Serve para os mesmos usos da versão anterior, com mais fidelidade e novas portas de entrada. O modo de fala para vídeo abre cenários como gerar um apresentador falando a partir de um áudio, e a animação de personagem ajuda quem trabalha com mascotes ou avatares de marca. Na prática, um time consegue produzir conteúdo de vídeo com aparência mais cinematográfica e controle de estética, sem alugar estúdio.
Continua sendo aberto e executável localmente, o que preserva o controle sobre o material.
Quando faz sentido pra você que lidera
Faz sentido quando você já validou que vídeo gerado por IA cabe na sua operação e quer dar um passo de qualidade, ou quando os novos modos, como áudio virando vídeo, resolvem um caso específico seu. A decisão de líder é a mesma de antes, agora com a tentação de subir o nível: mais qualidade costuma pedir mais hardware, então cuide para que o ganho de produção justifique o gasto de infraestrutura. Avalie também o tema sensível de gerar pessoas falando, que exige política clara de uso para evitar conteúdo enganoso.
Por que está no mapa
Wan 2.2 mostra o ritmo da corrida de vídeo aberto: poucos meses depois da versão anterior, já há um salto de arquitetura, mais dados e novos modos. Está no mapa porque ilustra que essa categoria não é uma foto, é um filme em aceleração, e o que parecia limitado num trimestre vira capaz no seguinte. Para quem lidera, é um lembrete de que decisões sobre produção de vídeo com IA precisam ser revisitadas com frequência, porque o teto sobe rápido.
Valeu pelo feedback. Isso ajuda a afiar a biblioteca.