均質アテンションを超えて:フーリエ近似KVキャッシュを用いたメモリ効率の高いLLM
Xiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu
公開日: 6/16/2025

要約
大規模言語モデルは、コンテキスト長が増加するにつれて、拡大するキー・バリュー(KV)キャッシュのメモリ要件に苦労しています。既存の圧縮手法はヘッド次元を均一化するか、アテンションに基づくトークン剪定に依存することが多く、精度の低下や計算負荷の増加を招くことがあります。本研究では、FourierAttentionという学習不要のフレームワークを提案します。このフレームワークはトランスフォーマーのヘッド次元が持つ異質な役割を利用します:下位次元は局所的なコンテキストを優先し、上位次元は長期的な依存関係を捉えます。FourierAttentionは、長期コンテキストに敏感でない次元を直交フーリエ基底に射影し、固定長のスペクトル係数でその時間的進化を近似します。LLaMAモデルでの評価結果によると、FourierAttentionはLongBenchおよびNeedle-In-A-Haystack (NIAH)において最良の長期コンテキスト精度を達成しています。さらに、メモリ最適化のために読み書き操作を合理化したカスタムTritonカーネルであるFlashFourierAttentionが設計され、性能低下なしに効率的なデプロイメントが可能となっています。