HyperAIHyperAI

Command Palette

Search for a command to run...

Sur la pertinence du préchauffage non ajusté pour l'optimisation adaptative

Jerry Ma Denis Yarats

Résumé

Les algorithmes d'optimisation adaptatifs tels qu'Adam sont largement utilisés en apprentissage profond. La stabilité de ces algorithmes est souvent améliorée grâce à une stratégie de « warmup » du taux d'apprentissage. Motivés par la difficulté de choisir et de régler ces stratégies de warmup, des travaux récents ont proposé une rectification automatique de la variance du taux d'apprentissage adaptatif d'Adam, affirmant que cette approche rectifiée (« RAdam ») surpasse l'algorithme Adam original et réduit la nécessité d'une calibration coûteuse de Adam avec warmup. Dans ce travail, nous remettons en cause cette analyse et proposons une explication alternative de la nécessité du warmup fondée sur l'ampleur du terme de mise à jour, qui est plus directement liée à la stabilité de l'entraînement. Nous proposons ensuite quelques règles empiriques pour les stratégies de warmup, et démontrons que le warmup simple et non réglé d'Adam se comporte, dans des scénarios pratiques typiques, de manière quasi identique à RAdam. Nous concluons en recommandant aux praticiens d'utiliser un warmup linéaire avec Adam, une valeur par défaut raisonnable étant un warmup linéaire sur 2/(1β2)2 / (1 - β_2)2/(1β2) itérations d'entraînement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp