HyperAIHyperAI
vor 17 Tagen

Zur Angemessenheit von ungefährten Warmup-Phasen für adaptive Optimierung

Jerry Ma, Denis Yarats
Zur Angemessenheit von ungefährten Warmup-Phasen für adaptive Optimierung
Abstract

Adaptive Optimierungsalgorithmen wie Adam werden in der tiefen Lernung weit verbreitet eingesetzt. Die Stabilität solcher Algorithmen wird häufig durch einen Warmup-Plan für die Lernrate verbessert. Aufgrund der Schwierigkeit, geeignete und gut abgestimmte Warmup-Pläne auszuwählen, schlägt jüngste Forschung eine automatische Varianzkorrektur der adaptiven Lernrate von Adam vor, wobei behauptet wird, dass dieser korrigierte Ansatz („RAdam“) den ursprünglichen Adam-Algorithmus übertrifft und die Notwendigkeit aufwendiger Abstimmungen von Adam in Kombination mit Warmup verringert. In dieser Arbeit widerlegen wir diese Analyse und bieten eine alternative Erklärung für die Notwendigkeit von Warmup basierend auf der Größe des Aktualisierungsterms, die für die Stabilität des Trainings von größerer Relevanz ist. Anschließend präsentieren wir einige „Regeln der Hand“ für Warmup-Pläne und zeigen, dass eine einfache, nicht abgestimmte Warmup-Phase von Adam in typischen praktischen Anwendungsszenarien annähernd identisch mit RAdam abschneidet. Wir schließen mit der Empfehlung, Praktikern bei der Verwendung von Adam auf lineare Warmup-Strategien zu setzen, wobei ein sinnvoller Standardwert die lineare Warmup-Phase über $2 / (1 - β_2)$ Trainingsiterationen darstellt.