HyperAIHyperAI

Command Palette

Search for a command to run...

Console

利用视觉头稀疏性进行 KV-Cache 优化的策略 SparseMM

Date

5 个月前

利用视觉头稀疏性进行 KV-Cache 优化的策略(Sparsity Emerges from Visual Concept Responses in MLLMs,简称 SparseMM)是由清华大学智能视觉实验室联合腾讯混元 X 组于 2025 年 6 月 5 日提出的一种键值缓存优化策略,它根据大语言模型中各注意力头的视觉得分,为其分配非对称的计算预算,相关论文成果为「SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs」。

与以往方法相比,SparseMM 在解码过程中优先强调并保留视觉语义。在主流多模态基准测试上的大量评估表明,SparseMM 实现了更优的精度—效率权衡。在效率测试中,SparseMM 实现了 1.38 倍的实时加速和 52% 的内存减少,同时保持了性能相当。

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供