
要約
Transformerは多くの自然言語処理(NLP)タスクにおいて有効であることが実証されている。しかし、Transformerの学習には、最先端の最適化手法や学習率スケジューリングを慎重に設計するという、非自明な努力が求められる(例えば、従来のSGDではTransformerの効果的な学習が困難である)。本研究の目的は、実証的および理論的視点から「Transformer学習の困難さの本質」を理解することにある。我々の分析により、勾配の不均衡が学習の不安定性の根本原因ではないことが明らかになった。代わりに、学習に著しい影響を与える「増幅効果」が存在することを特定した。多層Transformerモデルにおける各層において、残差接続(residual branch)への強い依存が学習を不安定化させる原因となる。これは、微小なパラメータ摂動(例えば、パラメータ更新)を増幅し、モデル出力に顕著な変動を引き起こすためである。一方で、過度に弱い依存性はモデルの潜在能力を制限し、劣った学習結果をもたらすことも観察された。この分析を踏まえ、我々は初期段階の学習を安定化させつつ、後期段階でモデルの潜在能力を最大限に引き出すための新しい手法Admin(Adaptive model initialization)を提案する。広範な実験結果から、Adminはより安定した学習を実現し、収束速度が速く、最終的な性能も優れていることが示された。実装コードは以下のURLにて公開されている:https://github.com/LiyuanLucasLiu/Transforemr-Clinic。