摘要

多模态大语言模型（Multimodal Large Language Models, MLLMs）在视觉理解、推理与交互任务中取得了显著进展。然而，在解码过程中，随着输出 token 的逐步生成，推理计算量与内存占用持续增加，直接影响了 MLLMs 的整体效率。现有方法试图通过减少视觉上下文的冗余来提升 MLLMs 的效率，但此类视觉上下文压缩在预填充（prefill）阶段带来的性能收益，在解码阶段逐渐减弱。为解决这一问题，本文提出了一种动态视觉-语言上下文稀疏化框架——Dynamic-LLaVA。该框架在预填充阶段动态降低视觉上下文的冗余，并在解码阶段有效减少生成语言上下文所引发的内存与计算开销。Dynamic-LLaVA 针对不同推理模式（包括带与不带 KV 缓存的预填充、解码阶段）设计了定制化的稀疏化推理方案，从而实现 MLLMs 的高效推理。实验结果表明，Dynamic-LLaVA 在预填充阶段可将计算消耗降低约 75%。在整个生成过程中，当不使用 KV 缓存时，其计算消耗可减少约 50%；而在使用 KV 缓存的解码场景下，可节省约 50% 的 GPU 内存开销，这主要得益于视觉-语言上下文的稀疏化处理。大量实验证明，与全上下文推理基线相比，Dynamic-LLaVA 在实现高效推理的同时，对模型的视觉理解能力与生成性能几乎无损，甚至在部分任务上实现了性能提升。相关代码已开源，地址为：https://github.com/Osilly/dynamic_llava。

源 PDF