HyperAIHyperAI
vor 2 Monaten

Lookahead-Optimierer: k Schritte vorwärts, 1 Schritt zurück

Michael R. Zhang; James Lucas; Geoffrey Hinton; Jimmy Ba
Lookahead-Optimierer: k Schritte vorwärts, 1 Schritt zurück
Abstract

Die große Mehrheit der erfolgreichen tiefen neuronalen Netze wird mit Varianten des stochastischen Gradientenabstiegs (SGD) trainiert. Versuche, den SGD zu verbessern, können grob in zwei Ansätze unterteilt werden: (1) adaptive Lernrategestaltung, wie z.B. AdaGrad und Adam, und (2) beschleunigte Verfahren, wie z.B. das Heavy-Ball-Verfahren und die Nesterov-Momentum-Methode. In dieser Arbeit schlagen wir einen neuen Optimierungsalgorithmus vor, den Lookahead, der orthogonal zu diesen früheren Ansätzen ist und iterativ zwei Gewichtssätze aktualisiert. Intuitiv wählt der Algorithmus eine Suchrichtung, indem er vorausblickt auf die Folge schneller Gewichte, die von einem anderen Optimierer generiert werden. Wir zeigen, dass Lookahead die Lernstabilität und die Varianz seines internen Optimierers unter vernachlässigbaren Rechen- und Speicherkosten verbessert. Anhand empirischer Studien demonstrieren wir, dass Lookahead die Leistung von SGD und Adam erheblich steigern kann, selbst bei deren Standard-Hyperparametereinstellungen auf ImageNet, CIFAR-10/100, neuronale Maschinübersetzung und dem Penn Treebank-Korpus.请注意,这里的“法语”应该是“德语”,我已经按照德语的标准进行了翻译。

Lookahead-Optimierer: k Schritte vorwärts, 1 Schritt zurück | Neueste Forschungsarbeiten | HyperAI