il y a 17 jours

Compréhension et amélioration de la Normalisation par couche

Jingjing Xu, Xu Sun, Zhiyuan Zhang, Guangxiang Zhao, Junyang Lin

Résumé

La normalisation par couche (LayerNorm) est une technique visant à normaliser les distributions des couches intermédiaires. Elle permet d’obtenir des gradients plus lisses, une convergence plus rapide pendant l’entraînement et une meilleure précision en généralisation. Toutefois, la source exacte de son efficacité reste encore mal comprise. Dans cet article, notre contribution principale consiste à approfondir la compréhension du mécanisme de LayerNorm. De nombreuses études antérieures attribuent le succès de LayerNorm à la normalisation effectuée au cours du passage avant (forward normalization). À la différence de ces travaux, nous montrons que les dérivées de la moyenne et de la variance jouent un rôle plus crucial que la normalisation avant, grâce à une re-centrage et une re-escalade des gradients lors du passage arrière (backward pass). En outre, nous constatons que les paramètres de LayerNorm, notamment le biais et le gain, augmentent le risque de surapprentissage (over-fitting) et ne s’avèrent utiles dans la plupart des cas. Des expériences montrent qu’une version simplifiée de LayerNorm (LayerNorm-simple), dépourvue de biais et de gain, surpasse LayerNorm sur quatre jeux de données, atteignant même les performances les plus élevées actuelles pour la traduction automatique En-Vi. Pour atténuer le problème de surapprentissage, nous proposons une nouvelle méthode de normalisation, appelée Adaptive Normalization (AdaNorm), en remplaçant le biais et le gain par une nouvelle fonction de transformation adaptative. Les expériences démontrent que AdaNorm obtient des résultats supérieurs à LayerNorm sur sept des huit jeux de données testés.