2 天前

XQuant：通过KV缓存重计算突破LLM推理的内存墙

Aditya Tomar, Coleman Hooper, Minjae Lee, Haocheng Xi, Rishabh Tiwari, Wonjun Kang, Luca Manolache, Michael W. Mahoney, Kurt Keutzer, Amir Gholami

查看论文详情

摘要

尽管大语言模型（LLM）推理已成为众多下游应用中的关键计算任务，但由于其巨大的内存占用和带宽需求，高效推理仍面临严峻挑战。与此同时，过去几十年中，计算能力的提升持续超过了内存容量和带宽的增长，这一趋势在现代GPU硬件中依然显著，进一步加剧了LLM推理的困难。为此，新兴的算法正通过增加计算开销来换取更少的内存操作。在此背景下，我们提出XQuant，该方法充分利用这一趋势，通过低比特量化实现内存消耗降低一个数量级，同时在精度上显著优于当前最先进的KV缓存量化方法。XQuant的核心思想是：不再采用传统的KV缓存机制，而是对层输入激活值X进行量化并缓存，推理过程中再按需实时重计算Keys和Values。该方法相比标准KV缓存可立即实现2倍的内存节省。通过应用XQuant，我们实现了相对于FP16基线高达约7.7倍的内存节省，且困惑度（perplexity）下降小于0.1。此外，我们的方法还利用了不同层之间X值具有高度相似性的特性。基于此观察，我们进一步提出XQuant-CL，通过挖掘X嵌入在跨层间的相似性，实现极致压缩。在多种模型上，XQuant-CL相对于FP16基线实现了最高达10倍的内存节省，仅带来0.01的困惑度损失；在仅0.1困惑度损失的情况下，内存节省可达12.5倍。XQuant通过充分利用硬件平台日益增强的计算能力，有效消除了内存瓶颈，不仅超越了当前最先进的KV缓存量化方法，还在多种模型上实现了接近FP16精度的推理性能。