Biblioteca · Paper · 2023 · arXiv (Microsoft Research)

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., et al.

Documento de 154 páginas da Microsoft Research argumentando que GPT-4 mostra 'faíscas' de inteligência geral. Pautou o debate público sobre AGI e riscos existenciais em 2023.

A leitura do Thiago

Este paper de 154 páginas da Microsoft Research foi o documento mais polêmico de 2023 em IA. Os autores tiveram acesso antecipado ao GPT-4 e produziram dezenas de demonstrações de tarefas que NÃO ESTAVAM em seu treinamento: desenhar um unicórnio em código TikZ, planejar uma cirurgia, escrever código que se autoanalisa, criar uma prova matemática original. A tese central, deliberadamente provocativa: GPT-4 já apresenta 'faíscas' de inteligência geral artificial (AGI), capacidade de raciocinar em domínios não vistos no treino.

Em linguagem executiva: foi o paper que tirou AGI do reino da ficção científica e jogou no debate de board rooms e congressos. Para o C-level brasileiro, três efeitos práticos: (1) tornou impossível para qualquer CEO ignorar IA, depois deste paper, OpenAI assinou parcerias com PwC, Bain, Morgan Stanley, e o tema entrou em todo planejamento estratégico sério; (2) puxou a discussão sobre riscos sistêmicos da IA (perda de empregos, manipulação, segurança nacional) para o mainstream, toda regulação que está chegando (EU AI Act, marco regulatório brasileiro) é resposta a este momento; (3) o paper também é um caso prático de como AVALIAR LLMs, vale ler os exemplos para calibrar expectativas sobre o que pedir ou não a uma IA na sua operação.

O que muda na prática

Este paper não é sobre tecnologia, é sobre régua de expectativa. Quando a Microsoft documenta um modelo passando na OAB americana no top 10% e resolvendo problemas que ninguém colocou no treino, a pergunta que cai na sua mesa muda de 'IA serve para minha empresa?' para 'quais funções de conhecimento na minha operação ainda justificam o custo que têm hoje?'. Para quem lidera, a decisão concreta é fazer um inventário honesto: liste as tarefas de raciocínio que você paga caro (parecer jurídico inicial, análise de relatório financeiro, primeira triagem de consultoria, redação de proposta) e teste, lado a lado, o que um modelo de fronteira entrega.

Não para demitir ninguém, mas para redesenhar onde a pessoa entra: o profissional deixa de produzir o rascunho e passa a revisar, contextualizar e responder pelo resultado. O cuidado prático é não cair no efeito demonstração. As 'faíscas' que impressionam em uma tela são cherry-picked (os melhores exemplos escolhidos a dedo), e o mesmo modelo erra contas simples e inventa fatos com confiança.

Para quem opera, isso vira regra de processo: toda saída de IA em função crítica precisa de um ponto de verificação humano explícito, com responsável nomeado. A pergunta certa para o fornecedor que chega vendendo 'IA que pensa como gente' é 'me mostre onde ela falha e como vocês detectam isso', não 'me mostre o melhor caso'. Na prática do dia a dia, este é o paper que justifica colocar IA na pauta do conselho, não como item de inovação, mas como variável de planejamento estratégico.

Se o nível de entrada de um profissional de conhecimento virou commodity de API, sua vantagem competitiva precisa migrar para o que a máquina não faz: relacionamento, julgamento sobre contexto local, responsabilização legal e decisões com informação incompleta. Quem trata isso como tema de TI perde tempo; quem trata como redesenho de modelo de negócio sai na frente.

O abstract original (inglês)

We contend that this early version of GPT-4 is part of a new cohort of LLMs that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models, demonstrating that GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more.

llmagievaluationmicrosoft

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?