
要約
ニューラル機械翻訳(NMT)における非常に深層なTransformerモデルの応用を検討する。訓練の安定化を図るシンプルでありながら効果的な初期化手法を用いることで、エンコーダーを最大60層、デコーダーを12層まで構成した標準的なTransformerベースのモデルの構築が可能であることを示す。これらの深層モデルは、ベースラインの6層モデルと比較して最大2.5 BLEUの性能向上を達成し、WMT14英仏翻訳(バックトランスレーションを用いた場合、43.8 BLEUおよび46.4 BLEU)およびWMT14英独翻訳(30.1 BLEU)において、新たな最良記録を達成した。コードおよび学習済みモデルは、以下のURLにて公開される予定である:https://github.com/namisan/exdeep-nmt。