Command Palette
Search for a command to run...
Transformers は RNN である:線形アテンションを用いた高速逐次生成 Transformers
Transformers は RNN である:線形アテンションを用いた高速逐次生成 Transformers
Angelos Katharopoulos Apoorv Vyas Nikolaos Pappas François Fleuret
概要
Transformerは複数のタスクにおいて優れた性能を発揮するが、入力長さに関して二次的な計算量(O(N2))を持つため、非常に長いシーケンスに対しては実用上不可能なほど遅延してしまう。この制約を克服するため、自己注意機構(self-attention)をカーネル特徴マップの線形ドット積として表現し、行列積の結合性(associativity)を利用することで、計算量をO(N2)からO(N)へと削減する。本研究では、この定式化が反復的(iterative)な実装を可能にし、自己回帰型Transformerの高速化を大幅に実現するとともに、それらが再帰型ニューラルネットワーク(RNN)との間に本質的な関係を持つことを明らかにする。提案する線形Transformerは、従来型Transformerと同等の性能を達成しつつ、非常に長いシーケンスに対する自己回帰予測において最大4000倍の高速化を実現している。