1ヶ月前

自己注意機構を永続記憶で強化する

Sainbayar Sukhbaatar; Edouard Grave; Guillaume Lample; Herve Jegou; Armand Joulin

要約

トランスフォーマー・ネットワークは、言語モデルと機械翻訳において重要な進歩をもたらしました。これらのモデルには、フィードフォワード層と自己注意層の2つの連続したモジュールが含まれています。後者により、ネットワークは長期依存関係を捉えることができ、トランスフォーマーの成功の鍵となる要素としてしばしば評価されています。この直感に基づいて、私たちは注目層のみから構成される新しいモデルを提案します。より具体的には、自己注意層に持続的なメモリベクトルを追加し、これらはフィードフォワード層と同様の役割を果たします。これらのベクトルのおかげで、トランスフォーマーの性能を低下させることなくフィードフォワード層を取り除くことができます。私たちの評価では、標準的な文字レベルおよび単語レベルの言語モデリングベンチマークにおいて、提案モデルがもたらす利点が示されています。