
要約
Transformerの学習を改善するための、3つの単純な正規化中心の変更を評価する。まず、事前正規化付きの残差接続(PreNorm)と小さい初期化値を用いることで、ウォームアップを不要とし、バリデーションに基づく学習が大規模な学習率で可能になることを示す。次に、単一のスケールパラメータを用いたℓ₂正規化(ScaleNorm)を提案し、より高速な学習と優れた性能を実現する。最後に、単語埋め込みを固定長に正規化する手法(FixNorm)の有効性を再確認する。TED Talksベースのコーパスから選ばれた5つの低リソース翻訳ペアにおいて、これらの変更は常に収束し、最先端の二語対訳ベースラインに対して平均+1.1 BLEUの向上を達成し、IWSLT'15英語-ベトナム語翻訳タスクにおいては新記録となる32.8 BLEUを達成した。性能曲線がより鋭くなり、勾配ノルムがより一貫性を保ち、活性化のスケーリングとデコーダの深さの間に線形関係が見られた。驚くべきことに、高リソース環境(WMT'14 英語-ドイツ語)においては、ScaleNormおよびFixNormは依然として競争力を持つが、PreNormは性能を低下させることが明らかになった。