Biblioteca · Paper · 2021 · ICML

Zero-Shot Text-to-Image Generation (DALL-E)

Ramesh, A., Pavlov, M., Goh, G., Gray, S., Voss, C., Radford, A., Chen, M., Sutskever, I.

Primeiro paper a mostrar geração convincente de imagens a partir de descrições em texto livre. Iniciou a era de IA generativa visual para o consumidor.

A leitura do Thiago

DALL-E foi o paper que iniciou a era 'descreva o que quer ver' em IA generativa. Em janeiro de 2021, a OpenAI mostrou imagens criadas a partir de prompts como 'uma poltrona em formato de abacate' ou 'uma loja com fachada de robô em estilo art déco', composições que claramente NÃO existiam em nenhum dataset de treinamento. A descoberta central: um Transformer suficientemente grande, treinado com 250 milhões de pares (texto, imagem), aprendeu a compor conceitos visuais de forma criativa, demonstrando entendimento composicional.

Em linguagem executiva: foi a prova de conceito que viabilizou todo o mercado atual de geração de imagem (Midjourney, Stable Diffusion, Adobe Firefly, Leonardo) e desencadeou litígios de copyright que ainda definirão a indústria criativa. Para corporações brasileiras, três aplicações em escala: (1) marketing pode produzir variações infinitas de criativos publicitários por centavos, testando hipóteses em A/B com volumes antes inimagináveis, Coca-Cola, Heinz e bancos brasileiros já fazem isso; (2) e-commerce pode gerar imagens de produtos em contextos variados (produto na mesa de Natal, no churrasco, no escritório) sem sessão fotográfica; (3) o ponto crítico jurídico-comercial: entender que o treinamento desses modelos usou bilhões de imagens da internet (incluindo trabalhos protegidos) é essencial para avaliar riscos de uso comercial, converse com seu jurídico ANTES de implementar geração de imagem em produção.

O que muda na prática

Para quem opera marketing, e-commerce ou produto, o DALL-E inaugurou uma mudança de custo unitário que já está na sua operação ou vai chegar nela. Produzir uma variação de criativo publicitário ou uma foto de produto em contexto novo saiu da casa de centenas de reais e de uma sessão fotográfica para a casa de centavos e de segundos. A ação de líder não é adotar a ferramenta, isso é o básico, é repensar o processo.

Se antes você testava três criativos por campanha porque cada um custava caro, agora pode testar dezenas e deixar os dados decidirem. O gargalo deixou de ser produção e passou a ser a sua capacidade de medir e escolher. Quem só usa a IA para fazer mais barato a mesma coisa antiga captura uma fração do valor.

Quem redesenha o funil de testes para aproveitar o volume captura o resto. No concreto, isso aparece na pauta de quem cuida de campanha e de catálogo. O time pode gerar o produto na mesa de Natal, no churrasco e no escritório sem logística de estúdio, e rodar testes A/B com um volume que antes era impensável.

A pergunta de gestão muda de quanto custa produzir esse criativo para qual hipótese eu quero testar e como vou medir o resultado. Esse é o deslocamento de habilidade que você precisa cobrar do time: menos tempo em produção manual, mais tempo em desenho de experimento e leitura de dados. E há o ponto que nenhum líder responsável pode pular: o risco jurídico.

Esses modelos foram treinados com bilhões de imagens da internet, incluindo material protegido por direito autoral, e isso gera litígios que ainda vão redefinir a indústria criativa. Antes de colocar geração de imagem em produção comercial, a conversa com o jurídico não é opcional. As perguntas concretas são: este fornecedor oferece indenização contra reivindicação de copyright, com que dados o modelo foi treinado, e posso usar a saída comercialmente sem risco.

Ignorar isso para ganhar velocidade é trocar economia de centavos por exposição de milhões.

O abstract original (inglês)

Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. We describe a simple approach for this task based on a transformer that autoregressively models the text and image tokens as a single stream of data. We show that DALL-E achieves strong zero-shot performance on the MS-COCO dataset.

generativemultimodalopenaimilestone

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?