
要約
並列可能な注意ネットワークを使用することで、ニューラルトランスフォーマーは非常に高速に学習できます。しかし、自己回帰的なアーキテクチャとデコーダ内の自己注意のため、デコーディングプロセスが遅くなるという問題があります。この問題を緩和するために、ニューラルトランスフォーマーのデコーダにおける自己注意ネットワークの代替として平均注意ネットワークを提案します。平均注意ネットワークは2つの層で構成されており、前の位置への依存関係をモデル化する平均層と、平均層の上に積み重ねられて提案された注意ネットワークの表現力を向上させるゲート層から成ります。私たちはこのネットワークをニューラルトランスフォーマーのデコーダ部分に適用し、元のターゲット側自己注意モデルを置き換えます。マスキング技術と動的計画法を用いることで、私たちのモデルは元のバージョンよりも4倍以上速い文のデコーディングを可能とし、学習時間や翻訳性能にほとんど影響を与えずにこれを実現します。WMT17翻訳タスクにおいて一連の実験を行い、6つの異なる言語ペアで堅牢かつ一貫したデコーディング速度向上が得られました。