HyperAIHyperAI

Command Palette

Search for a command to run...

均質アテンションを超えて:フーリエ近似KVキャッシュを用いたメモリ効率の高いLLM

概要

大規模言語モデルは、コンテキスト長が増加するにつれて、拡大するキー・バリュー(KV)キャッシュのメモリ要件に苦労しています。既存の圧縮手法はヘッド次元を均一化するか、アテンションに基づくトークン剪定に依存することが多く、精度の低下や計算負荷の増加を招くことがあります。本研究では、FourierAttentionという学習不要のフレームワークを提案します。このフレームワークはトランスフォーマーのヘッド次元が持つ異質な役割を利用します:下位次元は局所的なコンテキストを優先し、上位次元は長期的な依存関係を捉えます。FourierAttentionは、長期コンテキストに敏感でない次元を直交フーリエ基底に射影し、固定長のスペクトル係数でその時間的進化を近似します。LLaMAモデルでの評価結果によると、FourierAttentionはLongBenchおよびNeedle-In-A-Haystack (NIAH)において最良の長期コンテキスト精度を達成しています。さらに、メモリ最適化のために読み書き操作を合理化したカスタムTritonカーネルであるFlashFourierAttentionが設計され、性能低下なしに効率的なデプロイメントが可能となっています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
均質アテンションを超えて:フーリエ近似KVキャッシュを用いたメモリ効率の高いLLM | 記事 | HyperAI超神経