il y a 3 mois

PowerNorm : Repenser la Normalisation par Mini-batch dans les Transformeurs

Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer

Résumé

La méthode de normalisation standard utilisée dans les modèles de réseaux de neurones (NN) appliqués au traitement du langage naturel (NLP) est la normalisation par couche (Layer Normalization, LN). Cette approche diffère de la normalisation par lot (Batch Normalization, BN), largement adoptée en vision par ordinateur. L’utilisation préférentielle de la LN en NLP s’explique principalement par l’observation empirique selon laquelle une application naïve de la BN entraîne une dégradation significative des performances sur les tâches de NLP ; toutefois, la compréhension approfondie des raisons sous-jacentes à ce phénomène n’est pas toujours claire. Dans ce travail, nous menons une étude systématique des modèles Transformer en NLP afin de comprendre pourquoi la BN se comporte mal par rapport à la LN. Nous constatons que les statistiques des données NLP le long de la dimension du lot présentent de fortes fluctuations au cours de l’entraînement. Cela entraîne une instabilité si la BN est appliquée de manière naïve. Pour remédier à ce problème, nous proposons une nouvelle méthode de normalisation, appelée Power Normalization (PN), qui résout ce défaut en (i) assouplissant la contrainte de moyenne nulle de la BN, (ii) remplaçant les statistiques par lot par une moyenne quadratique en cours d’actualisation afin de stabiliser les fluctuations, et (iii) utilisant une rétropropagation approximative pour intégrer les statistiques en cours d’actualisation dans le passage avant. Nous démontrons théoriquement, sous des hypothèses modérées, que PN conduit à une constante de Lipschitz plus faible pour la fonction de perte, comparée à la BN. En outre, nous prouvons que le schéma de rétropropagation approximative garantit des gradients bornés. Nous testons de manière extensive PN sur diverses tâches de NLP avec des modèles Transformer, et montrons qu’elle surpasse significativement à la fois la LN et la BN. En particulier, PN améliore la LN de 0,4/0,6 points BLEU sur IWSLT14/WMT14, et de 5,6/3,0 points de perplexité sur PTB/WikiText-103. Nous mettons notre code à disposition publiquement à l’adresse suivante : \url{https://github.com/sIncerass/powernorm}.