Os artigos que construíram a IA de hoje, com a leitura do Thiago. Cada um tem a sua página: por que importa, o resumo executivo em linguagem de negócios e o abstract original. Filtre por tema.
2017 · NeurIPS
Vaswani, A. et al.
Introduziu a arquitetura Transformer, base de praticamente todos os LLMs modernos (GPT, BERT, Claude, Gemini). É o paper mais citado da década em IA.
transformersnlpfoundationalarchitecture
Ler a análise →
2018 · NAACL
Devlin, J. et al.
Estabeleceu o paradigma 'pre-train + fine-tune' que dominou NLP de 2018 a 2022 e ainda é base de buscas, classificadores e sistemas de recomendação em produção.
nlppretrainingtransformersfoundational
Ler a análise →
2020 · NeurIPS
Brown, T. et al.
Provou que escala bruta produz emergência de capacidades novas. Tornou viável usar IA via 'prompt' em vez de treinamento, modelo de negócio que viabilizou OpenAI e toda indústria de APIs de LLM.
llmscalingfew-shotfoundational
Ler a análise →
2012 · NeurIPS
Krizhevsky, A. et al.
O 'Big Bang' do Deep Learning moderno. Ganhar o ImageNet 2012 por margem absurda convenceu academia e indústria de que redes neurais profundas eram a aposta certa, desencadeando o boom de IA.
computer-visioncnndeep-learningfoundational
Ler a análise →
2015 · CVPR
He, K. et al.
Resolveu o problema de treinar redes muito profundas com a ideia de 'skip connections'. É o esqueleto matemático dentro de praticamente toda arquitetura moderna de visão e até dentro de Transformers.
computer-visioncnnarchitecturefoundational
Ler a análise →
2014 · NeurIPS
Goodfellow, I. et al.
Inaugurou a era da IA generativa visual (deepfakes, geração de rostos sintéticos, restauração de fotos). Yann LeCun chamou de 'a ideia mais interessante dos últimos 10 anos em ML'.
generativecomputer-visionfoundational
Ler a análise →
2013 · ICLR
Kingma, D. P., Welling, M.
Os VAEs formalizaram a ideia de 'espaço latente', representação comprimida e contínua de dados complexos. É um conceito central em Stable Diffusion, em recomendação e em compressão de dados.
generativerepresentation-learningfoundational
Ler a análise →
2014 · JMLR
Srivastava, N. et al.
Técnica de regularização tão simples quanto eficaz, virou padrão de fato em treinamento de redes neurais por uma década. Inspirou todo um campo de 'noise as regularization'.
regularizationtrainingdeep-learning
Ler a análise →
2015 · ICML
Ioffe, S., Szegedy, C.
Tornou o treinamento de redes profundas drasticamente mais rápido e estável. Sem batch norm, muitas arquiteturas modernas seriam impraticáveis de treinar.
trainingdeep-learningoptimization
Ler a análise →
2014 · NeurIPS
Sutskever, I. et al.
Estabeleceu o paradigma encoder-decoder que viabilizou tradução automática neural (Google Translate), sumarização e diálogo. Direto precursor dos LLMs.
nlptranslationlstmfoundational
Ler a análise →
2013 · NIPS Deep Learning Workshop
Mnih, V. et al.
Primeira demonstração convincente de IA aprendendo COMPORTAMENTO complexo apenas pela tela e pelo placar. Levou à fundação da DeepMind (vendida ao Google) e à era de Reinforcement Learning moderno.
reinforcement-learningdeep-learningdeepmindfoundational
Ler a análise →
2016 · Nature
Silver, D. et al.
Quebrou um marco que se previa impossível por uma década. Mostrou ao mundo que IA poderia superar humanos em jogos de intuição pura, e prenunciou o que viria em domínios mais amplos.
reinforcement-learningdeepmindgamesmilestone
Ler a análise →
2021 · ICML
Radford, A. et al.
Conectou texto e imagem em um único espaço de representação, viabilizando busca semântica de imagens, classificação 'zero-shot' e servindo de motor para DALL-E e Stable Diffusion.
multimodalvisionopenaizero-shot
Ler a análise →
2022 · CVPR
Rombach, R. et al.
Tornou geração de imagens de altíssima qualidade VIÁVEL em GPU comum e, crucialmente, foi liberado open-source. Iniciou a explosão criativa de IA generativa visual em 2022.
generativediffusioncomputer-visionopen-source
Ler a análise →
2022 · NeurIPS
Ouyang, L. et al.
Apresentou o RLHF (Reinforcement Learning from Human Feedback), técnica que transformou GPT-3 cru em ChatGPT utilizável. Sem este paper, não haveria a explosão de ChatGPT em dezembro de 2022.
llmalignmentrlhfopenaisafety
Ler a análise →
2022 · NeurIPS
Hoffmann, J. et al.
Revelou que GPT-3 e similares estavam 'subtreinados', o ótimo é aumentar DADOS proporcionalmente a parâmetros. Reorientou toda a indústria sobre como gastar dinheiro em treinamento de LLMs.
llmscaling-lawsdeepmindefficiency
Ler a análise →
2022 · NeurIPS
Wei, J. et al.
Demonstrou que pedir ao LLM para 'pensar passo a passo' destrava capacidades de raciocínio dormentes. Inspirou toda a linha 'reasoning models' (o1, DeepSeek-R1).
llmreasoningpromptinggoogle
Ler a análise →
2022 · arXiv (Anthropic)
Bai, Y. et al.
Proposta da Anthropic para alinhar IA com princípios escritos em linguagem natural ('constituição'), reduzindo dependência de feedback humano massivo. Base do Claude.
alignmentsafetyanthropicrlhf
Ler a análise →
2023 · arXiv (Microsoft Research)
Bubeck, S. et al.
Documento de 154 páginas da Microsoft Research argumentando que GPT-4 mostra 'faíscas' de inteligência geral. Pautou o debate público sobre AGI e riscos existenciais em 2023.
llmagievaluationmicrosoft
Ler a análise →
2023 · arXiv (Meta)
Touvron, H. et al.
Primeiro LLM realmente competitivo a circular publicamente. Vazou e desencadeou explosão de inovação em modelos open-source (Alpaca, Vicuna, etc.), tirando o controle exclusivo da OpenAI/Google.
llmopen-sourcemetafoundational
Ler a análise →
2023 · arXiv (Meta)
Touvron, H. et al.
Primeiro LLM open-source de qualidade comercial liberado com licença permissiva (uso comercial gratuito). Mudou o jogo regulatório e econômico, empresas finalmente podiam construir produtos sobre LLMs sem royalties.
llmopen-sourcemetarlhf
Ler a análise →
2024 · arXiv (Mistral AI)
Jiang, A. Q. et al.
Primeiro modelo open-source competitivo baseado em Mixture of Experts (MoE), arquitetura que GPT-4 e Gemini usam internamente. Mostrou que MoE é viável fora dos laboratórios fechados.
llmmixture-of-expertsopen-sourcemistral
Ler a análise →
2023 · arXiv (OpenAI)
OpenAI
Marco da capacidade frontier em LLMs e mudança de paradigma da OpenAI rumo a opacidade técnica (nenhum detalhe de arquitetura ou treino divulgado). Definiu a régua de comparação para todos os modelos subsequentes.
llmopenaimultimodalmilestone
Ler a análise →
2023 · NeurIPS
Schick, T. et al.
Primeiro paper a mostrar de forma sistemática como LLMs podem aprender a CHAMAR ferramentas externas (calculadora, busca, APIs). Base conceitual de toda a era 'agentes' e 'function calling'.
llmagentstool-usemeta
Ler a análise →
1997 · Neural Computation
Hochreiter, S., Schmidhuber, J.
Resolveu o problema fundamental de aprender dependências de longo prazo em sequências. Dominou NLP, fala e séries temporais por quase 20 anos, até a chegada dos Transformers.
rnnlstmsequencesfoundational
Ler a análise →
2025 · arXiv (DeepSeek)
DeepSeek-AI et al.
Modelo de raciocínio open-source que igualou o OpenAI o1 em benchmarks por uma fração do custo. Causou queda de USD 1 trilhão em valor de mercado de empresas de IA em janeiro de 2025.
llmreasoningopen-sourcedeepseekmilestone
Ler a análise →
2024 · arXiv (DeepSeek)
DeepSeek-AI et al.
Base do DeepSeek-R1. Demonstrou que era possível treinar LLM de fronteira com USD 5,5 milhões, duas ordens de magnitude abaixo do que se imaginava. Provocou repensar da economia de IA.
llmmixture-of-expertsopen-sourcedeepseekefficiency
Ler a análise →
2024 · arXiv (Meta)
Grattafiori, A. et al.
Demonstrou que modelos open-source de 405 bilhões de parâmetros podem alcançar paridade com GPT-4. Paper de 92 páginas é o manual de engenharia mais completo já publicado de um LLM frontier.
llmopen-sourcemetamultilingual
Ler a análise →
2021 · ICML
Ramesh, A. et al.
Primeiro paper a mostrar geração convincente de imagens a partir de descrições em texto livre. Iniciou a era de IA generativa visual para o consumidor.
generativemultimodalopenaimilestone
Ler a análise →
2017 · arXiv (DeepMind)
Silver, D. et al.
Algoritmo único que dominou Go, xadrez e shogi APENAS jogando contra si mesmo, sem nenhum dado humano. Demonstração filosófica de que IA pode descobrir estratégia do zero.
reinforcement-learningdeepmindgamesself-play
Ler a análise →