HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamic-LLaVA:通过动态视觉-语言上下文稀疏化实现高效的多模态大语言模型

Wenxuan Huang Zijie Zhai Yunhang Shen Shaosheng Cao Fei Zhao Xiangfeng Xu Zheyu Ye Yao Hu Shaohui Lin

摘要

多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉理解、推理与交互任务中取得了显著进展。然而,在解码过程中,随着输出 token 的逐步生成,推理计算量与内存占用持续增加,直接影响了 MLLMs 的整体效率。现有方法试图通过减少视觉上下文的冗余来提升 MLLMs 的效率,但此类视觉上下文压缩在预填充(prefill)阶段带来的性能收益,在解码阶段逐渐减弱。为解决这一问题,本文提出了一种动态视觉-语言上下文稀疏化框架——Dynamic-LLaVA。该框架在预填充阶段动态降低视觉上下文的冗余,并在解码阶段有效减少生成语言上下文所引发的内存与计算开销。Dynamic-LLaVA 针对不同推理模式(包括带与不带 KV 缓存的预填充、解码阶段)设计了定制化的稀疏化推理方案,从而实现 MLLMs 的高效推理。实验结果表明,Dynamic-LLaVA 在预填充阶段可将计算消耗降低约 75%。在整个生成过程中,当不使用 KV 缓存时,其计算消耗可减少约 50%;而在使用 KV 缓存的解码场景下,可节省约 50% 的 GPU 内存开销,这主要得益于视觉-语言上下文的稀疏化处理。大量实验证明,与全上下文推理基线相比,Dynamic-LLaVA 在实现高效推理的同时,对模型的视觉理解能力与生成性能几乎无损,甚至在部分任务上实现了性能提升。相关代码已开源,地址为:https://github.com/Osilly/dynamic_llava


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Dynamic-LLaVA:通过动态视觉-语言上下文稀疏化实现高效的多模态大语言模型 | 论文 | HyperAI超神经