Biblioteca · Paper · 2016 · Nature

Mastering the game of Go with deep neural networks and tree search (AlphaGo)

Silver, D., Huang, A., Maddison, C. J., et al.

Quebrou um marco que se previa impossível por uma década. Mostrou ao mundo que IA poderia superar humanos em jogos de intuição pura, e prenunciou o que viria em domínios mais amplos.

A leitura do Thiago

AlphaGo foi o 'momento Sputnik' da IA na consciência pública mundial. Em 2016, derrotou Lee Sedol, lenda do Go (jogo mais complexo que o xadrez por ordens de magnitude) por 4 a 1 em uma série assistida por mais de 200 milhões de pessoas. Especialistas previam que máquinas levariam décadas para chegar a esse nível.

Em linguagem de negócios: foi a primeira evidência cabal de que IA já não era apenas força bruta computacional, havia algo que se assemelha a INTUIÇÃO ESTRATÉGICA em sua jogada. A famosa 'jogada 37' do AlphaGo no segundo jogo, considerada 'criativa' até por mestres do Go, virou metáfora para o tipo de descoberta que IA pode produzir em qualquer domínio com regras claras. Para o executivo brasileiro, três implicações: (1) AlphaGo desencadeou a corrida bilionária de governos (especialmente China) e empresas em IA, todo o boom atual de investimento começa aqui; (2) provou que combinar redes neurais com busca estruturada é uma fórmula vencedora para problemas complexos, hoje aplicada em descoberta de medicamentos, materiais e logística; (3) é uma lição sobre quando confiar em sugestões de IA: se você tem regras claras + simulação massiva + feedback rápido, a máquina vai superar humanos.

Saiba reconhecer essas situações em sua operação.

O que muda na prática

A leitura prática de AlphaGo para quem lidera é um critério de decisão sobre quando confiar numa recomendação de IA e quando não confiar. A máquina superou o humano no Go porque havia três condições juntas: regras claras, possibilidade de simular o resultado milhões de vezes, e feedback rápido sobre o que funcionou. Sempre que sua operação tiver essas três condições (otimização de rotas, precificação, escalonamento de produção, alocação de estoque, certos problemas de descoberta com simulação), a IA tende a propor soluções melhores que as do seu time, inclusive contraintuitivas, como a famosa jogada que mestres do Go consideraram criativa.

Reconhecer esse padrão na sua empresa é a habilidade estratégica que o paper ensina: pare de pedir à IA o tipo de julgamento ambíguo e sem placar para o qual ela é fraca, e direcione-a para os problemas fechados onde ela é imbatível. O contraponto, que protege o operador do hype, é igualmente importante. A fórmula do AlphaGo (redes neurais mais busca estruturada) não se transfere de graça para problemas onde as regras são confusas, o resultado demora meses para aparecer ou não dá para simular.

Negociação com um cliente grande, decisão de cultura, aposta de mercado nova: nada disso tem placar imediato, e ali a IA volta a ser ferramenta de apoio, não de decisão. Para o C-level, a pergunta concreta diante de qualquer promessa de "IA que decide sozinha" é: esse problema tem regra clara, simulação barata e feedback rápido? Se sim, vale automatizar com confiança.

Se não, mantenha o humano no comando e use a IA só para informar. Saber classificar em qual dos dois mundos cada decisão da sua operação vive é o que separa adoção madura de aposta cega.

O abstract original (inglês)

The game of Go has long been viewed as the most challenging of classic games for artificial intelligence owing to its enormous search space and the difficulty of evaluating board positions and moves. Here we introduce a new approach to computer Go that uses 'value networks' to evaluate board positions and 'policy networks' to select moves. Using this search algorithm, our program AlphaGo achieved a 99.8% winning rate against other Go programs, and defeated the human European Go champion by 5 games to 0.

reinforcement-learningdeepmindgamesmilestone

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?