HyperAIHyperAI

Command Palette

Search for a command to run...

Compréhension et amélioration de la Normalisation par couche

Jingjing Xu Xu Sun Zhiyuan Zhang Guangxiang Zhao Junyang Lin

Résumé

La normalisation par couche (LayerNorm) est une technique visant à normaliser les distributions des couches intermédiaires. Elle permet d’obtenir des gradients plus lisses, une convergence plus rapide pendant l’entraînement et une meilleure précision en généralisation. Toutefois, la source exacte de son efficacité reste encore mal comprise. Dans cet article, notre contribution principale consiste à approfondir la compréhension du mécanisme de LayerNorm. De nombreuses études antérieures attribuent le succès de LayerNorm à la normalisation effectuée au cours du passage avant (forward normalization). À la différence de ces travaux, nous montrons que les dérivées de la moyenne et de la variance jouent un rôle plus crucial que la normalisation avant, grâce à une re-centrage et une re-escalade des gradients lors du passage arrière (backward pass). En outre, nous constatons que les paramètres de LayerNorm, notamment le biais et le gain, augmentent le risque de surapprentissage (over-fitting) et ne s’avèrent utiles dans la plupart des cas. Des expériences montrent qu’une version simplifiée de LayerNorm (LayerNorm-simple), dépourvue de biais et de gain, surpasse LayerNorm sur quatre jeux de données, atteignant même les performances les plus élevées actuelles pour la traduction automatique En-Vi. Pour atténuer le problème de surapprentissage, nous proposons une nouvelle méthode de normalisation, appelée Adaptive Normalization (AdaNorm), en remplaçant le biais et le gain par une nouvelle fonction de transformation adaptative. Les expériences démontrent que AdaNorm obtient des résultats supérieurs à LayerNorm sur sept des huit jeux de données testés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp