
要約
KVキャッシュは、長文コンテキストにおける大規模言語モデル(LLM)の推論を高速化するために広く用いられているが、その高いメモリ要求からキャッシュ圧縮の必要性が生じている。しかし、既存の圧縮手法は主にヒューリスティックに基づくものであり、動的な予算配分を実現できないという課題を抱えている。この問題を解決するために、Transformerの残差ストリームにおける情報損失を最小化するという統一的な枠組みを提案する。この枠組みを基盤として、層間のアテンション出力損失を分析し、複数のヘッド間でキャッシュエントリを比較するための新しい指標を導出することで、層ごとの圧縮を実現しつつ、動的なヘッド予算を可能にした。さらに、層間の情報を比較することで、動的な層予算も達成した。LAVaは、従来の手法とは異なり、学習や複数戦略の組み合わせに依存せずに、キャッシュの淘汰と動的予算配分を統合的に扱う初めての戦略である。LongBench、Needle-In-A-Haystack、Ruler、InfiniteBenchといったベンチマークを用いた実験により、その優位性が実証された。さらに、我々の実験から新たな知見が得られた:生成タスク(例:コード補完)においては動的な層予算が重要である一方、抽出タスク(例:抽出型QA)では動的なヘッド予算が鍵を握ることが明らかになった。完全に動的な圧縮手法であるLAVaは、タスクの種類にかかわらず一貫して高い性能を維持する。コードは以下のURLにて公開されている。