HyperAIHyperAI

Command Palette

Search for a command to run...

Fastformer:加法的アテンションがすべての要件となる可能性

Chuhan Wu Fangzhao Wu Tao Qi Yongfeng Huang Xing Xie

概要

Transformerはテキスト理解に強力なモデルであるが、入力シーケンス長に対して二次的な計算複雑性を持つため、効率性に欠ける。Transformerの高速化を目的とした手法は多数提案されているが、長文シーケンスでは依然として効率が低く、あるいは十分な効果を発揮できていない。本論文では、加法的アテンション(additive attention)に基づく効率的なTransformerモデルであるFastformerを提案する。Fastformerでは、トークン間の対間相互作用を直接モデル化するのではなく、まず加法的アテンション機構を用いてグローバルな文脈をモデル化し、その後、各トークン表現をそのグローバル文脈表現との相互作用に基づいてさらに変換する。このアプローチにより、線形計算複雑性で効果的な文脈モデル化を実現できる。5つのデータセットにおける広範な実験結果から、Fastformerは既存の多数のTransformerモデルに比べてはるかに効率的でありながら、長文のモデリング性能において同等あるいは優れた結果を達成できることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています