vor 17 Tagen

Ein Realitätscheck für Großbatch-Optimierer: Traditionelle, generische Optimierer reichen aus, unabhängig von der Batchgröße

Zachary Nado, Justin M. Gilmer, Christopher J. Shallue, Rohan Anil, George E. Dahl

Abstract

Kürzlich wurden die Optimierer LARS und LAMB vorgeschlagen, um das Training neuronaler Netze mit großen Batch-Größen schneller zu gestalten. LARS und LAMB integrieren jeweils eine schichtweise Normalisierung in die Aktualisierungsregeln des Heavy-ball-Momentum- und des Adam-Optimierers und haben sich in bedeutenden Benchmarks sowie in gängigen Deep-Learning-Bibliotheken weit verbreitet. Allerdings bleibt die Frage offen, ob LARS und LAMB im Vergleich zu herkömmlichen, allgemeingültigen Optimieralgorithmen tatsächlich Vorteile bieten, solange keine fairen Vergleiche mit Standard-Optimierern durchgeführt wurden. In dieser Arbeit zeigen wir, dass herkömmliche Optimierungsalgorithmen wie der Nesterov-Momentum und Adam bei großen Batch-Größen die Leistung von LARS und LAMB erreichen oder sogar übertreffen können. Unsere Ergebnisse etablieren neue, stärkere Benchmarks für zukünftige Vergleiche bei großen Batch-Größen und beleuchten allgemeine Schwierigkeiten beim Vergleich von Optimierern im Kontext des Trainings neuronaler Netze.