HyperAIHyperAI

Command Palette

Search for a command to run...

Optimiseur Lookahead : k étapes en avant, 1 étape en arrière

Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba

Résumé

La grande majorité des réseaux neuronaux profonds réussis sont formés en utilisant des variantes d'algorithmes de descente de gradient stochastique (SGD). Les tentatives récentes d'amélioration du SGD peuvent être classées en deux approches générales : (1) les schémas d'apprentissage adaptatif, tels qu'AdaGrad et Adam, et (2) les schémas accélérés, comme la méthode de la balle lourde et le momentum de Nesterov. Dans cet article, nous proposons un nouvel algorithme d'optimisation, Lookahead, qui est orthogonal à ces approches précédentes et met à jour itérativement deux ensembles de poids. Intuitivement, l'algorithme choisit une direction de recherche en anticipant la séquence de poids rapides générée par un autre optimiseur. Nous montrons que Lookahead améliore la stabilité de l'apprentissage et réduit la variance de son optimiseur interne avec un coût négligeable en termes de calcul et de mémoire. Nous démontrons empiriquement que Lookahead peut considérablement améliorer les performances du SGD et d'Adam, même avec leurs paramètres hyperparamétriques par défaut sur ImageNet, CIFAR-10/100, la traduction automatique neuronale et Penn Treebank.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp