2 天前
XQuant:通过KV缓存重计算突破LLM推理的内存墙
Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

摘要
尽管大语言模型(LLM)推理已成为众多下游应用中的关键计算任务,但由于其巨大的内存占用和带宽需求,高效推理仍面临严峻挑战。与此同时,过去几十年中,计算能力的提升持续超过了内存容量和带宽的增长,这一趋势在现代GPU硬件中依然显著,进一步加剧了LLM推理的困难。为此,新兴的算法正通过增加计算开销来换取更少的内存操作。在此背景下,我们提出XQuant,该方法充分利用这一趋势,通过低比特量化实现内存消耗降低一个数量级,同时在精度上显著优于当前最先进的KV缓存量化方法。XQuant的核心思想是:不再采用传统的KV缓存机制,而是对层输入激活值X进行量化并缓存,推理过程中再按需实时重计算Keys和Values。该方法相比标准KV缓存可立即实现2倍的内存节省。通过应用XQuant,我们实现了相对于FP16基线高达约7.7倍的内存节省,且困惑度(perplexity)下降小于0.1。此外,我们的方法还利用了不同层之间X值具有高度相似性的特性。基于此观察,我们进一步提出XQuant-CL,通过挖掘X嵌入在跨层间的相似性,实现极致压缩。在多种模型上,XQuant-CL相对于FP16基线实现了最高达10倍的内存节省,仅带来0.01的困惑度损失;在仅0.1困惑度损失的情况下,内存节省可达12.5倍。XQuant通过充分利用硬件平台日益增强的计算能力,有效消除了内存瓶颈,不仅超越了当前最先进的KV缓存量化方法,还在多种模型上实现了接近FP16精度的推理性能。