B2AI Academy · Biblioteca

Papers que importam

Os artigos que construíram a IA de hoje, com a leitura do Thiago. Cada um tem a sua página: por que importa, o resumo executivo em linguagem de negócios e o abstract original. Filtre por tema.

PapersRepositórios

2017 · NeurIPS
Vaswani, A. et al.
Introduziu a arquitetura Transformer, base de praticamente todos os LLMs modernos (GPT, BERT, Claude, Gemini). É o paper mais citado da década em IA.
transformersnlpfoundationalarchitecture
Ler a análise →
2020 · NeurIPS
Brown, T. et al.
Provou que escala bruta produz emergência de capacidades novas. Tornou viável usar IA via 'prompt' em vez de treinamento, modelo de negócio que viabilizou OpenAI e toda indústria de APIs de LLM.
llmscalingfew-shotfoundational
Ler a análise →
2014 · NeurIPS
Goodfellow, I. et al.
Inaugurou a era da IA generativa visual (deepfakes, geração de rostos sintéticos, restauração de fotos). Yann LeCun chamou de 'a ideia mais interessante dos últimos 10 anos em ML'.
generativecomputer-visionfoundational
Ler a análise →
2013 · ICLR
Kingma, D. P., Welling, M.
Os VAEs formalizaram a ideia de 'espaço latente', representação comprimida e contínua de dados complexos. É um conceito central em Stable Diffusion, em recomendação e em compressão de dados.
generativerepresentation-learningfoundational
Ler a análise →
2013 · NIPS Deep Learning Workshop
Mnih, V. et al.
Primeira demonstração convincente de IA aprendendo COMPORTAMENTO complexo apenas pela tela e pelo placar. Levou à fundação da DeepMind (vendida ao Google) e à era de Reinforcement Learning moderno.
reinforcement-learningdeep-learningdeepmindfoundational
Ler a análise →
2023 · arXiv (Meta)
Touvron, H. et al.
Primeiro LLM open-source de qualidade comercial liberado com licença permissiva (uso comercial gratuito). Mudou o jogo regulatório e econômico, empresas finalmente podiam construir produtos sobre LLMs sem royalties.
llmopen-sourcemetarlhf
Ler a análise →
2024 · arXiv (Mistral AI)
Jiang, A. Q. et al.
Primeiro modelo open-source competitivo baseado em Mixture of Experts (MoE), arquitetura que GPT-4 e Gemini usam internamente. Mostrou que MoE é viável fora dos laboratórios fechados.
llmmixture-of-expertsopen-sourcemistral
Ler a análise →
2023 · arXiv (OpenAI)
OpenAI
Marco da capacidade frontier em LLMs e mudança de paradigma da OpenAI rumo a opacidade técnica (nenhum detalhe de arquitetura ou treino divulgado). Definiu a régua de comparação para todos os modelos subsequentes.
llmopenaimultimodalmilestone
Ler a análise →
1997 · Neural Computation
Hochreiter, S., Schmidhuber, J.
Resolveu o problema fundamental de aprender dependências de longo prazo em sequências. Dominou NLP, fala e séries temporais por quase 20 anos, até a chegada dos Transformers.
rnnlstmsequencesfoundational
Ler a análise →
2024 · arXiv (DeepSeek)
DeepSeek-AI et al.
Base do DeepSeek-R1. Demonstrou que era possível treinar LLM de fronteira com USD 5,5 milhões, duas ordens de magnitude abaixo do que se imaginava. Provocou repensar da economia de IA.
llmmixture-of-expertsopen-sourcedeepseekefficiency
Ler a análise →
2024 · arXiv (Meta)
Grattafiori, A. et al.
Demonstrou que modelos open-source de 405 bilhões de parâmetros podem alcançar paridade com GPT-4. Paper de 92 páginas é o manual de engenharia mais completo já publicado de um LLM frontier.
llmopen-sourcemetamultilingual
Ler a análise →