11日前

Transformers は RNN である：線形アテンションを用いた高速逐次生成 Transformers

Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, François Fleuret

要約

Transformerは複数のタスクにおいて優れた性能を発揮するが、入力長さに関して二次的な計算量（$\mathcal{O}\left(N^2\right)$）を持つため、非常に長いシーケンスに対しては実用上不可能なほど遅延してしまう。この制約を克服するため、自己注意機構（self-attention）をカーネル特徴マップの線形ドット積として表現し、行列積の結合性（associativity）を利用することで、計算量を$\mathcal{O}\left(N^2\right)$から$\mathcal{O}\left(N\right)$へと削減する。本研究では、この定式化が反復的（iterative）な実装を可能にし、自己回帰型Transformerの高速化を大幅に実現するとともに、それらが再帰型ニューラルネットワーク（RNN）との間に本質的な関係を持つことを明らかにする。提案する線形Transformerは、従来型Transformerと同等の性能を達成しつつ、非常に長いシーケンスに対する自己回帰予測において最大4000倍の高速化を実現している。