Sur la pertinence du préchauffage non ajusté pour l'optimisation adaptative

Les algorithmes d'optimisation adaptatifs tels qu'Adam sont largement utilisés en apprentissage profond. La stabilité de ces algorithmes est souvent améliorée grâce à une stratégie de « warmup » du taux d'apprentissage. Motivés par la difficulté de choisir et de régler ces stratégies de warmup, des travaux récents ont proposé une rectification automatique de la variance du taux d'apprentissage adaptatif d'Adam, affirmant que cette approche rectifiée (« RAdam ») surpasse l'algorithme Adam original et réduit la nécessité d'une calibration coûteuse de Adam avec warmup. Dans ce travail, nous remettons en cause cette analyse et proposons une explication alternative de la nécessité du warmup fondée sur l'ampleur du terme de mise à jour, qui est plus directement liée à la stabilité de l'entraînement. Nous proposons ensuite quelques règles empiriques pour les stratégies de warmup, et démontrons que le warmup simple et non réglé d'Adam se comporte, dans des scénarios pratiques typiques, de manière quasi identique à RAdam. Nous concluons en recommandant aux praticiens d'utiliser un warmup linéaire avec Adam, une valeur par défaut raisonnable étant un warmup linéaire sur $2 / (1 - β_2)$ itérations d'entraînement.