Domänenunabhängige Dominanz adaptiver Methoden

Aus einer vereinfachten Analyse adaptiver Methoden leiten wir AvaGrad ab, einen neuen Optimierer, der bei visuellen Aufgaben bei geeigneter Einstellung seiner Anpassungsfähigkeit SGD übertrifft. Wir beobachten, dass der Stärke unseres Ansatzes teilweise dadurch Rechnung getragen wird, dass Lernrate und Anpassungsfähigkeit entkoppelt werden, was die Suche nach Hyperparametern erheblich vereinfacht. Aufgrund dieser Beobachtung zeigen wir, dass Adam – entgegen der gängigen Meinung – ebenfalls auf visuellen Aufgaben SGD übertrifft, vorausgesetzt, die Kopplung zwischen Lernrate und Anpassungsfähigkeit wird berücksichtigt. In der Praxis erreicht AvaGrad die besten Ergebnisse hinsichtlich der Generalisierungsgenauigkeit, die von irgendeinem bestehenden Optimierer (SGD oder adaptiv) bei Aufgaben der Bildklassifikation (CIFAR, ImageNet) und zeichenbasierten Sprachmodellierung (Penn Treebank) erzielt wurden.