11日前
Fastformer:加法的アテンションがすべての要件となる可能性
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang, Xing Xie

要約
Transformerはテキスト理解に強力なモデルであるが、入力シーケンス長に対して二次的な計算複雑性を持つため、効率性に欠ける。Transformerの高速化を目的とした手法は多数提案されているが、長文シーケンスでは依然として効率が低く、あるいは十分な効果を発揮できていない。本論文では、加法的アテンション(additive attention)に基づく効率的なTransformerモデルであるFastformerを提案する。Fastformerでは、トークン間の対間相互作用を直接モデル化するのではなく、まず加法的アテンション機構を用いてグローバルな文脈をモデル化し、その後、各トークン表現をそのグローバル文脈表現との相互作用に基づいてさらに変換する。このアプローチにより、線形計算複雑性で効果的な文脈モデル化を実現できる。5つのデータセットにおける広範な実験結果から、Fastformerは既存の多数のTransformerモデルに比べてはるかに効率的でありながら、長文のモデリング性能において同等あるいは優れた結果を達成できることを示した。