HyperAI超神经

利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM

日期

3 个月前

利用视觉头稀疏性进行 KV-Cache 优化的策略（Sparsity Emerges from Visual Concept Responses in MLLMs，简称 SparseMM）是由清华大学智能视觉实验室联合腾讯混元 X 组于 2025 年 6 月 5 日提出的一种键值缓存优化策略，它根据大语言模型中各注意力头的视觉得分，为其分配非对称的计算预算，相关论文成果为「SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs」。

与以往方法相比，SparseMM 在解码过程中优先强调并保留视觉语义。在主流多模态基准测试上的大量评估表明，SparseMM 实现了更优的精度—效率权衡。在效率测试中，SparseMM 实现了 1.38 倍的实时加速和 52% 的内存减少，同时保持了性能相当。

利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM

用 AI 构建 AI

Hyper Newsletters

Command Palette

利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM

用 AI 构建 AI

Hyper Newsletters