11日前

Flowformer:保存則流れを用いたTransformerの線形化

Haixu Wu, Jialong Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long
Flowformer:保存則流れを用いたTransformerの線形化
要約

アテンション機構に基づくTransformerは、さまざまな分野で著しい成功を収めている。しかし、アテンション機構は二次時間計算量を有しており、多くのトークンを扱う場合や、より大規模なモデルへのスケーリングにおいて顕著な制約となっている。従来の手法は、行列積の類似性分解と結合性を活用して線形時間のアテンション機構を設計してきた。これらは局所性(locality)などの誘導的バイアス(inductive biases)を再導入することで、アテンションが自明な分布に退化するのを回避しているが、その代償としてモデルの一般性と表現力が損なわれるという課題を抱えている。本論文では、フローネットワーク理論に基づき、特定の誘導的バイアスに依存せずにTransformerを線形化する手法を提案する。我々は、アテンションを、値(values)から結果(results)へと学習されたフロー容量(アテンション)を通じて伝達される情報フローの集積として定式化する。この枠組みにおいて、フロー保存則(flow conservation)をアテンションに適用し、線形時間複雑度を持つ「フローアテンション(Flow-Attention)」機構を提案する。フローアテンションは、ソース間の競合を考慮するための受信フローの保存と、シンクへの割り当てを制御するための送出フローの保存を別々に保証することで、特定の誘導的バイアスを用いずに情報量豊かなアテンションを自然に生成する。このフローアテンションを基盤とするFlowformerは、長文系列、時系列、画像処理、自然言語処理、強化学習など、広範な領域において線形時間で優れた性能を発揮する。実装コードおよび実験設定は、以下のリポジトリで公開されている:https://github.com/thuml/Flowformer。

Flowformer:保存則流れを用いたTransformerの線形化 | 最新論文 | HyperAI超神経