Ein Realitätscheck für Großbatch-Optimierer: Traditionelle, generische Optimierer reichen aus, unabhängig von der Batchgröße

Kürzlich wurden die Optimierer LARS und LAMB vorgeschlagen, um das Training neuronaler Netze mit großen Batch-Größen schneller zu gestalten. LARS und LAMB integrieren jeweils eine schichtweise Normalisierung in die Aktualisierungsregeln des Heavy-ball-Momentum- und des Adam-Optimierers und haben sich in bedeutenden Benchmarks sowie in gängigen Deep-Learning-Bibliotheken weit verbreitet. Allerdings bleibt die Frage offen, ob LARS und LAMB im Vergleich zu herkömmlichen, allgemeingültigen Optimieralgorithmen tatsächlich Vorteile bieten, solange keine fairen Vergleiche mit Standard-Optimierern durchgeführt wurden. In dieser Arbeit zeigen wir, dass herkömmliche Optimierungsalgorithmen wie der Nesterov-Momentum und Adam bei großen Batch-Größen die Leistung von LARS und LAMB erreichen oder sogar übertreffen können. Unsere Ergebnisse etablieren neue, stärkere Benchmarks für zukünftige Vergleiche bei großen Batch-Größen und beleuchten allgemeine Schwierigkeiten beim Vergleich von Optimierern im Kontext des Trainings neuronaler Netze.