Command Palette
Search for a command to run...
注目はすべてである
注目はすべてである
概要
主要なシーケンス変換モデルは、エンコーダ・デコーダ構造に基づいた複雑な再帰型または畳み込みニューラルネットワークに依存している。最も優れた性能を発揮するモデルでは、エンコーダとデコーダの間に注目メカニズム(attention mechanism)を導入している。本研究では、再帰構造および畳み込み演算を一切排除し、単一の注目メカニズムにのみ依拠する新たなシンプルなネットワークアーキテクチャ「Transformer」を提案する。2つの機械翻訳タスクにおける実験結果から、本モデルは品質面で優れており、並列処理が容易であり、訓練に要する時間が著しく短縮されることを示した。WMT 2014 英語→ドイツ語翻訳タスクにおいて、本モデルは28.4のBLEUスコアを達成し、これまでの最良結果(アンサンブルモデルを含む)を2 BLEU以上上回った。また、WMT 2014 英語→フランス語翻訳タスクでは、8つのGPUで3.5日間訓練した結果、単一モデルとして41.8のBLEUスコアを達成し、文献に報告された最良モデルの訓練コストのほんの一部で実現した。さらに、大規模および限られた訓練データの両方を用いて、英語構文解析(English constituency parsing)にも成功裏に適用することで、Transformerが他のタスクにも良好に一般化できることを示した。