HyperAIHyperAI

Command Palette

Search for a command to run...

PowerNorm: Batch Normalization in Transformers neu zu überdenken

Sheng Shen Zhewei Yao Amir Gholami Michael W. Mahoney Kurt Keutzer

Zusammenfassung

Die Standardnormalisierungsmethode für neuronale Netzwerke (NN), die in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) eingesetzt wird, ist die Layer-Normalisierung (Layer Normalization, LN). Im Gegensatz dazu wird in der Computer Vision weit verbreitet die Batch-Normalisierung (Batch Normalization, BN) verwendet. Die bevorzugte Anwendung von LN in NLP beruht hauptsächlich auf der empirischen Beobachtung, dass eine naive (oder „vanilla“) Anwendung von BN zu einer erheblichen Leistungseinbuße bei NLP-Aufgaben führt; die zugrundeliegenden Ursachen hierfür sind jedoch nicht immer eindeutig. In diesem Artikel führen wir eine systematische Untersuchung von Transformer-Modellen für NLP durch, um zu verstehen, warum BN im Vergleich zu LN eine schlechte Leistung erzielt. Wir stellen fest, dass die statistischen Eigenschaften von NLP-Daten entlang der Batch-Dimension während des Trainings erhebliche Schwankungen aufweisen. Dies führt bei einer naiven Implementierung von BN zu Instabilität. Um dieses Problem zu lösen, schlagen wir Power Normalization (PN) vor, eine neuartige Normalisierungsmethode, die (i) die Null-Mittelwert-Normalisierung in BN entschärft, (ii) anstelle der Batch-Statistiken einen laufenden quadratischen Mittelwert verwendet, um Schwankungen zu stabilisieren, und (iii) eine Näherung des Rückpropagierens einsetzt, um die laufenden Statistiken bereits im Vorwärtsdurchlauf zu integrieren. Theoretisch zeigen wir unter milden Annahmen, dass PN im Vergleich zu BN eine kleinere Lipschitz-Konstante der Verlustfunktion ergibt. Darüber hinaus beweisen wir, dass der vorgeschlagene Näherungsansatz für die Rückpropagation zu beschränkten Gradienten führt. Wir testen PN umfassend an Transformer-Modellen auf einer Vielzahl von NLP-Aufgaben und zeigen, dass sie sowohl gegenüber LN als auch gegenüber BN erheblich besser abschneidet. Insbesondere übertrifft PN LN um 0,4/0,6 BLEU auf IWSLT14/WMT14 und um 5,6/3,0 PPL auf PTB/WikiText-103. Den Quellcode stellen wir öffentlich unter \url{https://github.com/sIncerass/powernorm} zur Verfügung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp