HyperAIHyperAI

Command Palette

Search for a command to run...

Flowformer:保存則流れを用いたTransformerの線形化

Haixu Wu Jialong Wu Jiehui Xu Jianmin Wang Mingsheng Long

概要

アテンション機構に基づくTransformerは、さまざまな分野で著しい成功を収めている。しかし、アテンション機構は二次時間計算量を有しており、多くのトークンを扱う場合や、より大規模なモデルへのスケーリングにおいて顕著な制約となっている。従来の手法は、行列積の類似性分解と結合性を活用して線形時間のアテンション機構を設計してきた。これらは局所性(locality)などの誘導的バイアス(inductive biases)を再導入することで、アテンションが自明な分布に退化するのを回避しているが、その代償としてモデルの一般性と表現力が損なわれるという課題を抱えている。本論文では、フローネットワーク理論に基づき、特定の誘導的バイアスに依存せずにTransformerを線形化する手法を提案する。我々は、アテンションを、値(values)から結果(results)へと学習されたフロー容量(アテンション)を通じて伝達される情報フローの集積として定式化する。この枠組みにおいて、フロー保存則(flow conservation)をアテンションに適用し、線形時間複雑度を持つ「フローアテンション(Flow-Attention)」機構を提案する。フローアテンションは、ソース間の競合を考慮するための受信フローの保存と、シンクへの割り当てを制御するための送出フローの保存を別々に保証することで、特定の誘導的バイアスを用いずに情報量豊かなアテンションを自然に生成する。このフローアテンションを基盤とするFlowformerは、長文系列、時系列、画像処理、自然言語処理、強化学習など、広範な領域において線形時間で優れた性能を発揮する。実装コードおよび実験設定は、以下のリポジトリで公開されている:https://github.com/thuml/Flowformer


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています