Biblioteca · Paper · 2014 · JMLR

Dropout: A Simple Way to Prevent Neural Networks from Overfitting

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.

Técnica de regularização tão simples quanto eficaz, virou padrão de fato em treinamento de redes neurais por uma década. Inspirou todo um campo de 'noise as regularization'.

A leitura do Thiago

Dropout é a evidência de que, em IA, ideias simples e contraintuitivas frequentemente vencem ideias elegantes e complexas. A proposta: durante o treinamento, desligue ALEATORIAMENTE 50% dos neurônios em cada passo. Parece sabotagem, mas funciona, força a rede a aprender soluções redundantes e robustas, em vez de decorar os dados de treino.

Resultado: modelos que generalizam muito melhor para situações novas. Em linguagem corporativa, o paralelo é direto: empresas resilientes são aquelas onde nenhuma pessoa, processo ou cliente é insubstituível, é o mesmo princípio. Para executivos, três pontos práticos: (1) dropout virou commodity em qualquer framework de IA hoje, então quando seu fornecedor diz 'usamos as melhores práticas', isso significativamente inclui esta técnica; (2) o paper é uma masterclass em como uma boa ideia técnica simples pode economizar milhões em re-treinamento e em modelos que 'funcionavam em laboratório, falham em produção', um problema crônico em iniciativas de IA corporativa; (3) o conceito de 'introduzir aleatoriedade controlada para forçar robustez' ressoa com gestão de risco e arquitetura organizacional.

O que muda na prática

Para quem opera, a lição prática do Dropout não está em mexer no modelo (isso é trabalho de quem constrói), está em uma pergunta que você passa a fazer em toda compra de IA: como vocês garantem que o modelo funciona fora do laboratório? Dropout existe porque modelos têm a mania de decorar os dados de treino e brilhar na demonstração, para depois falhar feio com casos reais que nunca viram. Esse é o problema número um de projetos de IA que "funcionavam na POC e quebraram em produção".

Quando um fornecedor mostra 98% de acerto, a pergunta certa não é "como chegou nesse número?", é "esse número é em dados que o modelo nunca tinha visto, separados antes do treino?". Se a resposta for vaga, o número não vale nada. No dia a dia da empresa isso vira um critério de aceite contratual.

Antes de pagar pela entrega de qualquer modelo, exija um teste em um conjunto de dados que você guardou e o fornecedor não viu (o chamado conjunto de validação cego). É barato, é honesto e separa quem entende de quem está vendendo demonstração maquiada. O paralelo organizacional também é útil para o líder: o princípio do Dropout (forçar redundância desligando partes aleatoriamente para o sistema não depender de nenhum ponto único) é a mesma lógica de não deixar um cliente, um fornecedor ou uma pessoa-chave serem insubstituíveis na sua operação.

Robustez, em IA e em negócio, vem de não apostar tudo num único ponto que, se cair, derruba o resto.

O abstract original (inglês)

Deep neural nets with a large number of parameters are very powerful machine learning systems. However, overfitting is a serious problem in such networks. Dropout is a technique for addressing this problem. The key idea is to randomly drop units (along with their connections) from the neural network during training.

regularizationtrainingdeep-learning

Ler o paper original →

O que você achou desta página?

Recomendaria esta página para alguém do seu time?