9日前

Combiner:スパース計算コストを備えたフルアテンショントランスフォーマー

Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec, Dale Schuurmans, Bo Dai
Combiner:スパース計算コストを備えたフルアテンショントランスフォーマー
要約

Transformersは、シーケンスモデリングにおいて極めて効果的な表現力豊かなアーキテクチャを提供するが、その主要な制約は、アテンション層におけるシーケンス長に対して二次時間・メモリ複雑度 $\mathcal{O}(L^2)$ を示す点である。このため、極めて長いシーケンスへの適用が制限される。既存の多数のアプローチは、アテンション行列におけるスパース性や低ランク仮定を活用して計算コストを削減しているが、その代わりに表現力の損失を伴う。本研究では、各アテンションヘッドで完全なアテンション機能を維持しつつ、低計算量・低メモリ複雑度を実現する「Combiner」を提案する。その核心的なアイデアは、自己アテンション機構を各位置における埋め込みの条件付き期待値として捉え、その条件付き分布を構造的因子分解により近似することにある。各位置は、他のすべての位置に対して、直接アテンションを行うか、あるいは対応する局所領域からの埋め込みの条件付き期待値として定義される抽象化(abstraction)を経由して間接的にアテンションを行うことができる。本研究では、既存のスパースTransformerで用いられている多数のスパースアテンションパターンが、完全アテンションを実現するためのこのような因子分解の設計を啓発できることを示す。これにより、二次より低い計算コスト($\mathcal{O}(L\log L)$ または $\mathcal{O}(L\sqrt{L})$)を達成することが可能となる。Combinerは既存のTransformerにおけるアテンション層の即時置換として利用可能であり、一般的なフレームワーク上でも容易に実装できる。自己回帰的および双方向的なシーケンスタスクに対する実験評価を通じて、本手法の有効性が実証され、画像およびテキストモデリングの複数のタスクにおいて最先端の性能を達成した。