
要約
レイヤー正規化(LayerNorm)は、中間層の分布を正規化するための手法であり、滑らかな勾配の伝播、高速な学習、およびより優れた汎化性能を実現する。しかし、その有効性の本質がどこにあるのかはまだ明確ではない。本論文では、LayerNormの効果の理解を一歩進めるという主な貢献を行う。これまでの多くの研究では、LayerNormの成功は前向きな正規化(forward normalization)に起因すると考えられてきた。しかし、本研究では、逆伝播における勾配の再中心化および再スケーリングに伴う平均および分散の微分が、前向きな正規化よりも重要であることを明らかにした。さらに、LayerNormに含まれるパラメータ(バイアスおよびゲイン)は過学習のリスクを高めることが判明し、多くの場合に有用ではないことも示された。実験の結果、バイアスとゲインを含まない簡略化されたLayerNorm(LayerNorm-simple)が、4つのデータセットにおいて従来のLayerNormを上回る性能を発揮し、En-Vi機械翻訳タスクでは最先端の性能を達成した。過学習問題に対処するため、新たな変換関数によってバイアスとゲインを置き換えることで、新たな正規化手法である適応正規化(Adaptive Normalization, AdaNorm)を提案した。実験結果によれば、AdaNormは8つのデータセットのうち7つでLayerNormよりも優れた結果を示した。