利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM
利用视觉头稀疏性进行 KV-Cache 优化的策略(Sparsity Emerges from Visual Concept Responses in MLLMs,简称 SparseMM)是由清华大学智能视觉实验室联合腾讯混元 X 组于 2025 年 6 月 5 日提出的一种键值缓存优化策略,它根据大语言模型中各注意力头的视觉得分,为其分配非对称的计算预算,相关论文成果为「SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs」。
与以往方法相比,SparseMM 在解码过程中优先强调并保留视觉语义。在主流多模态基准测试上的大量评估表明,SparseMM 实现了更优的精度—效率权衡。在效率测试中,SparseMM 实现了 1.38 倍的实时加速和 52% 的内存减少,同时保持了性能相当。