il y a 2 mois

Optimiseur Lookahead : k étapes en avant, 1 étape en arrière

Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba

Résumé

La grande majorité des réseaux neuronaux profonds réussis sont formés en utilisant des variantes d'algorithmes de descente de gradient stochastique (SGD). Les tentatives récentes d'amélioration du SGD peuvent être classées en deux approches générales : (1) les schémas d'apprentissage adaptatif, tels qu'AdaGrad et Adam, et (2) les schémas accélérés, comme la méthode de la balle lourde et le momentum de Nesterov. Dans cet article, nous proposons un nouvel algorithme d'optimisation, Lookahead, qui est orthogonal à ces approches précédentes et met à jour itérativement deux ensembles de poids. Intuitivement, l'algorithme choisit une direction de recherche en anticipant la séquence de poids rapides générée par un autre optimiseur. Nous montrons que Lookahead améliore la stabilité de l'apprentissage et réduit la variance de son optimiseur interne avec un coût négligeable en termes de calcul et de mémoire. Nous démontrons empiriquement que Lookahead peut considérablement améliorer les performances du SGD et d'Adam, même avec leurs paramètres hyperparamétriques par défaut sur ImageNet, CIFAR-10/100, la traduction automatique neuronale et Penn Treebank.