2日前

XQuant：KVキャッシュの再生成によるLLM推論におけるメモリ壁の突破

Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

論文の詳細を見る

要約

大規模言語モデル（LLM）の推論は、多くの下流アプリケーションにおいて重要なワークロードとして浮上しているが、その推論を効率的に行うことは、膨大なメモリ使用量と帯域幅の要求に起因して困難である。一方で、過去数十年にわたり、計算能力はメモリ容量および帯域幅を着実に上回って進化しており、この傾向は現代のGPUハードウェアにおいても顕著であり、LLMの推論をさらに困難にしている。このような背景から、計算量の増加を許容することでメモリ操作を削減する新たなアルゴリズムが登場している。本研究では、このトレンドを活用したXQuantを提案する。XQuantは、低ビット量化的によりメモリ消費量を1桁程度削減しつつ、最先端のKVキャッシュ量化的手法と比較して顕著な精度の向上を実現する。本手法では、標準的なKVキャッシュとは異なり、層の入力活性化値Xを量的に圧縮・キャッシュし、推論時にオンザフライでキー（Key）と値（Value）を再生成する。これにより、KVキャッシュ法と比較して即座に2倍のメモリ節約が可能となる。XQuantを適用することで、FP16ベースラインと比較して最大約7.7倍のメモリ節約が達成され、 perplexityの低下は0.1未満に抑えられる。さらに、本手法は、異なる層間でX値が類似しているという事実を活用している。この観察に基づき、XQuant-CLを導入する。XQuant-CLは、X埋め込みの層間類似性を活用して極限の圧縮を実現する。異なるモデルにおいて、XQuant-CLはFP16ベースラインと比較して最大10倍のメモリ節約を達成し、 perplexityの低下はわずか0.01にとどまる。また、0.1のperplexity低下で最大12.5倍のメモリ節約も実現している。XQuantは、ハードウェアプラットフォームの計算能力の急激な向上を活用し、メモリボトルネックを解消するとともに、最先端のKVキャッシュ量化的手法を上回り、幅広いモデルにおいてほぼFP16相当の精度を達成している。