Biblioteca · Paper · 2017 · arXiv (DeepMind)

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm (AlphaZero)

Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., et al.

Algoritmo único que dominou Go, xadrez e shogi APENAS jogando contra si mesmo, sem nenhum dado humano. Demonstração filosófica de que IA pode descobrir estratégia do zero.

A leitura do Thiago

AlphaZero radicalizou a tese de AlphaGo: em vez de aprender com partidas humanas, jogue MILHÕES de partidas contra si mesmo sem conhecimento prévio nenhum (só as regras do jogo) e descubra estratégia do zero. Em 24 horas de auto-treinamento, atingiu nível super-humano em Go, xadrez e shogi com o MESMO algoritmo, sem qualquer customização por jogo. O xadrez em particular foi chocante: depois de 70 anos de teoria de aberturas refinada por grandes mestres, AlphaZero descobriu sozinho aberturas consideradas 'ruins' pela teoria mas que se mostraram superiores, e jogadas de estilo 'romântico' (sacrifício de material por posição) que humanos abandonaram nos anos 1900.

Em linguagem executiva: foi a demonstração de que IA pode descobrir estratégias ÓTIMAS que humanos jamais consideraram ou descartaram cedo demais. Para corporações brasileiras, três lições estratégicas: (1) em qualquer domínio com regras claras e feedback rápido (otimização de logística, descoberta de medicamentos, design de chips, estratégias de trading, planejamento de cardápio em restaurantes), 'self-play' pode produzir descobertas que o conhecimento humano descartou; (2) ensina humildade gerencial: as 'melhores práticas' do seu setor podem estar presas em ótimos locais que IA descobriria como subótimos, vale revisitá-las; (3) inspirou aplicações reais como o AlphaFold (proteínas) e otimização de data centers do Google, busque problemas em sua empresa com estrutura similar.

O que muda na prática

A lição prática do AlphaZero para quem decide não é sobre jogos, é sobre quando desconfiar das suas próprias melhores práticas. O modelo descobriu sozinho, sem aprender com humanos, jogadas de xadrez que a teoria de setenta anos havia descartado como ruins, e elas se mostraram superiores. A tradução para o seu negócio é direta: algumas das regras consagradas do seu setor podem ser ótimos locais, soluções boas o suficiente que ninguém questiona mais, mas que não são as melhores.

A ação de líder é identificar onde na sua operação existe regra clara, feedback rápido e possibilidade de simular muitas alternativas. Aí, e só aí, vale botar uma IA de tentativa e erro para explorar o que o consenso humano abandonou cedo demais. O problema é saber reconhecer esses casos, porque eles têm uma assinatura específica.

Logística de rotas e estoque, definição dinâmica de preços, sequenciamento de produção, planejamento de cardápio, estratégias de negociação, todos compartilham três traços: as regras do jogo são conhecidas, dá para simular barato, e o resultado de cada tentativa é mensurável rápido. Se o seu problema tem esses três traços, a abordagem de aprendizado por simulação massiva é candidata séria. Se não tem, por exemplo se o feedback demora meses ou as regras são vagas e mudam o tempo todo, forçar essa abordagem é desperdício.

Saber separar os dois casos é o que evita queimar orçamento em projeto bonito que não entrega. No nível de cultura, o AlphaZero impõe uma dose de humildade gerencial útil. Se a máquina, partindo do zero, encontra estratégias que mestres humanos consideravam erradas, é razoável supor que parte das verdades inquestionáveis da sua empresa também são herança que ninguém testou de novo há anos.

A prática concreta é manter uma lista curta de regras de ouro do seu negócio e, periodicamente, pôr uma à prova com dados ou simulação. Não para abandonar a experiência humana, mas para descobrir onde ela ficou presa no passado. As aplicações reais que nasceram dessa linha, da previsão de estruturas de proteínas à otimização de consumo de energia em data centers, vieram justamente de buscar problemas com essa estrutura dentro de operações já existentes.

O abstract original (inglês)

The game of chess is the longest-studied domain in the history of artificial intelligence. In this paper, we generalise the AlphaGo Zero approach into a single AlphaZero algorithm that can achieve superhuman performance in many challenging games. Starting from random play and given no domain knowledge except the game rules, AlphaZero convincingly defeated a world champion program in the games of chess and shogi as well as Go.

reinforcement-learningdeepmindgamesself-play

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?