2ヶ月前
注意がすべてである
Vaswani, Ashish ; Shazeer, Noam ; Parmar, Niki ; Uszkoreit, Jakob ; Jones, Llion ; Gomez, Aidan N. ; Kaiser, Lukasz ; Polosukhin, Illia

要約
主要なシーケンストランスダクションモデルは、エンコーダー-デコーダー構成の複雑なリカレントニューラルネットワークや畳み込みニューラルネットワークに基づいています。最高性能を発揮するモデルでは、さらにエンコーダーとデコーダーをアテンションメカニズムで接続しています。本稿では、アテンションメカニズムのみを使用し、リカレンスと畳み込みを完全に省いた新しい単純なネットワークアーキテクチャであるトランスフォーマー(Transformer)を提案します。2つの機械翻訳タスクにおける実験結果から、これらのモデルが品質面で優れ、より並列化が可能であり、学習に必要な時間が大幅に削減されることを示しています。当社のモデルはWMT 2014英語-ドイツ語翻訳タスクにおいて28.4 BLEUスコアを達成し、既存の最良結果(アンサンブル含む)よりも2 BLEU以上改善しました。WMT 2014英語-フランス語翻訳タスクにおいても、8つのGPUを使用して3.5日間学習させた後、単一モデルとして新たな最先端のBLEUスコア41.8を樹立しました。これは文献上の最良モデルの学習コストの一部に過ぎません。また、トランスフォーマーが他のタスクにも良好に汎化することを示すために、大規模な訓練データおよび限られた訓練データを使用した英語の構文解析に成功裏に適用したことを報告します。