Command Palette

Search for a command to run...

利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM

日期

3 个月前

利用视觉头稀疏性进行 KV-Cache 优化的策略(Sparsity Emerges from Visual Concept Responses in MLLMs,简称 SparseMM)是由清华大学智能视觉实验室联合腾讯混元 X 组于 2025 年 6 月 5 日提出的一种键值缓存优化策略,它根据大语言模型中各注意力头的视觉得分,为其分配非对称的计算预算,相关论文成果为「SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs」。

与以往方法相比,SparseMM 在解码过程中优先强调并保留视觉语义。在主流多模态基准测试上的大量评估表明,SparseMM 实现了更优的精度—效率权衡。在效率测试中,SparseMM 实现了 1.38 倍的实时加速和 52% 的内存减少,同时保持了性能相当。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供