HyperAIHyperAI
vor 3 Monaten

PowerNorm: Batch Normalization in Transformers neu zu überdenken

Sheng Shen, Zhewei Yao, Amir Gholami, Michael W. Mahoney, Kurt Keutzer
PowerNorm: Batch Normalization in Transformers neu zu überdenken
Abstract

Die Standardnormalisierungsmethode für neuronale Netzwerke (NN), die in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eingesetzt wird, ist die Layer-Normalisierung (Layer Normalization, LN). Im Gegensatz dazu wird in der Computer Vision weit verbreitet die Batch-Normalisierung (Batch Normalization, BN) verwendet. Die bevorzugte Anwendung von LN in NLP beruht hauptsächlich auf der empirischen Beobachtung, dass eine naive (oder „vanilla“) Anwendung von BN zu einer erheblichen Leistungseinbuße bei NLP-Aufgaben führt; die zugrundeliegenden Ursachen hierfür sind jedoch nicht immer eindeutig. In diesem Artikel führen wir eine systematische Untersuchung von Transformer-Modellen für NLP durch, um zu verstehen, warum BN im Vergleich zu LN eine schlechte Leistung erzielt. Wir stellen fest, dass die statistischen Eigenschaften von NLP-Daten entlang der Batch-Dimension während des Trainings erhebliche Schwankungen aufweisen. Dies führt bei einer naiven Implementierung von BN zu Instabilität. Um dieses Problem zu lösen, schlagen wir Power Normalization (PN) vor, eine neuartige Normalisierungsmethode, die (i) die Null-Mittelwert-Normalisierung in BN entschärft, (ii) anstelle der Batch-Statistiken einen laufenden quadratischen Mittelwert verwendet, um Schwankungen zu stabilisieren, und (iii) eine Näherung des Rückpropagierens einsetzt, um die laufenden Statistiken bereits im Vorwärtsdurchlauf zu integrieren. Theoretisch zeigen wir unter milden Annahmen, dass PN im Vergleich zu BN eine kleinere Lipschitz-Konstante der Verlustfunktion ergibt. Darüber hinaus beweisen wir, dass der vorgeschlagene Näherungsansatz für die Rückpropagation zu beschränkten Gradienten führt. Wir testen PN umfassend an Transformer-Modellen auf einer Vielzahl von NLP-Aufgaben und zeigen, dass sie sowohl gegenüber LN als auch gegenüber BN erheblich besser abschneidet. Insbesondere übertrifft PN LN um 0,4/0,6 BLEU auf IWSLT14/WMT14 und um 5,6/3,0 PPL auf PTB/WikiText-103. Den Quellcode stellen wir öffentlich unter \url{https://github.com/sIncerass/powernorm} zur Verfügung.