PowerNorm:Transformerにおけるバッチ正規化の再考

自然言語処理(NLP)分野で用いられるニューラルネットワーク(NN)モデルにおける標準的な正規化手法は、レイヤー正規化(Layer Normalization, LN)である。これはコンピュータビジョン分野で広く採用されているバッチ正規化(Batch Normalization, BN)とは異なり、NLPではLNが好まれる主な理由は、BNを単純に適用した場合、NLPタスクにおいて顕著な性能低下が観察されるという経験的事実に起因している。しかしながら、この現象の背後にある根本的な理由については、必ずしも明確に理解されているわけではない。本論文では、Transformerモデルを対象に系統的な分析を行い、なぜBNがLNに比べて劣る性能を示すのかを解明することを目的とする。その結果、NLPデータにおけるバッチ次元に沿った統計量が学習過程全体にわたり著しい変動を示すことが判明した。このため、BNを単純に実装した場合、学習の安定性が損なわれる。これを解決するため、我々は新たな正規化手法である「パワー正規化(Power Normalization, PN)」を提案する。PNは以下の3つの特徴を持つ:(i)BNにおけるゼロ平均正規化を緩和し、(ii)バッチごとの統計量ではなく、累積的な2次平均(running quadratic mean)を用いることで、統計量の変動を安定化し、(iii)前向き伝搬(forward pass)において累積統計量を組み込むために近似的な逆伝搬(approximate backpropagation)を導入する。理論的に、緩やかな仮定の下でPNがBNよりも損失関数のリプシッツ定数を小さくすることができることを示す。さらに、近似的逆伝搬スキームが勾配の有界性(bounded gradients)を保証することを証明した。我々は、多様なNLPタスクにおけるTransformerモデルに対してPNを広範に評価した結果、PNはLNおよびBNの両者を顕著に上回ることを確認した。具体的には、IWSLT14およびWMT14ではBLEUスコアでそれぞれ0.4および0.6ポイント、PTBおよびWikiText-103ではPPLでそれぞれ5.6および3.0ポイントの改善を達成した。本研究のコードは、\url{https://github.com/sIncerass/powernorm}にて公開している。