Biblioteca · Paper · 2021 · ICML

Learning Transferable Visual Models From Natural Language Supervision (CLIP)

Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., et al.

Conectou texto e imagem em um único espaço de representação, viabilizando busca semântica de imagens, classificação 'zero-shot' e servindo de motor para DALL-E e Stable Diffusion.

A leitura do Thiago

CLIP foi o paper que ensinou IAs a entender imagens via TEXTO, e abriu a era multimodal. Em vez de treinar uma rede para identificar 'gato', 'cachorro' e 1000 categorias pré-definidas (modelo antigo, rígido), os autores da OpenAI alimentaram 400 milhões de pares (imagem, legenda) coletados da internet e ensinaram a IA a casar imagem com texto livre. Resultado: agora você pode pedir 'me mostre imagens parecidas com um pôr-do-sol amarelo sobre montanhas' e a IA entende.

Para corporações brasileiras, três aplicações imediatas: (1) busca interna de imagens em escala (catálogos de e-commerce, acervos de marketing, documentos arquivados, evidências jurídicas com fotos), você pode buscar por descrição livre, não por tags manuais; (2) moderação automática de conteúdo (detectar imagens inadequadas mesmo sem rótulos pré-definidos); (3) CLIP é o 'olho' que entende prompts de Stable Diffusion e DALL-E, toda IA generativa de imagem que você usa hoje carrega CLIP por baixo. Lição estratégica: o futuro da busca corporativa não é por palavras-chave, é semântica e multimodal. Quem dominar isso primeiro tem vantagem em produtividade e descoberta.

O que muda na prática

Se você lidera ou opera uma empresa, o ponto prático do CLIP é este: a busca dentro da sua empresa provavelmente ainda depende de alguém ter colocado a tag certa no arquivo certo. Catálogo de e-commerce, banco de imagens de marketing, fotos de sinistro numa seguradora, evidências fotográficas num jurídico. Tudo isso hoje só é encontrável se um humano tagueou na entrada.

CLIP elimina essa dependência: você passa a buscar por descrição livre ("prateleira com produto fora do lugar", "documento com carimbo vermelho") e o sistema acha, mesmo sem tag. A decisão concreta para um gestor é parar de financiar projetos de taguamento manual em massa e perguntar ao fornecedor de busca ou DAM (gestão de ativos digitais) se o motor é semântico, ou seja, se entende imagem e texto no mesmo espaço. No dia a dia isso aparece em três frentes.

Primeira, produtividade da operação: um time de marketing que leva horas caçando a peça certa no Drive passa a achar em segundos. Segunda, moderação e conformidade: dá para flagrar imagem fora de política sem ter pré-cadastrado cada categoria proibida, útil para quem opera marketplace ou conteúdo de usuário. Terceira, e mais importante para quem compra IA, é uma pergunta de due diligence.

Quando um fornecedor de geração de imagem (DALL-E, Stable Diffusion e similares) vende a solução, o componente que interpreta o seu pedido em texto costuma ser um descendente do CLIP. Saber disso muda a conversa: você pergunta como o modelo foi treinado, com quais dados, e se há viés conhecido nesse entendimento, em vez de tratar a IA como caixa-preta mágica. O erro caro a evitar é tratar isto como projeto de TI de longo prazo.

A capacidade de busca semântica multimodal já vem embutida em ferramentas de prateleira. A vantagem competitiva não está em construir, está em redesenhar o processo de quem busca informação visual na sua empresa para parar de depender de organização manual. Comece por um acervo onde a busca dói hoje (catálogo, arquivo de contratos com anexos, biblioteca de criativos) e meça o tempo economizado por pessoa por semana.

Esse número justifica ou mata o investimento, sem precisar de fé no hype.

O abstract original (inglês)

State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet.

multimodalvisionopenaizero-shot

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?