15 天前
一针见血:小型VLM是加速大型VLM的精准引导
Wangbo Zhao, Yizeng Han, Jiasheng Tang, Zhikai Li, Yibing Song, Kai Wang, Zhangyang Wang, Yang You

摘要
视觉-语言模型(Vision-Language Models, VLMs)在多种多模态任务中展现出卓越的性能,然而大型VLM在处理大量视觉标记(visual tokens)时面临显著的效率瓶颈。一种有前景的加速大型VLM推理的方法是利用部分信息(如特定层的注意力图)来评估标记的重要性,并剪枝冗余或非关键的视觉标记。然而,我们的研究揭示了三个关键发现:(i)仅依赖部分注意力信息不足以准确识别关键视觉标记,导致性能下降,尤其在低标记保留率下表现尤为明显;(ii)全局注意力信息(如跨所有层聚合的注意力图)能更有效地保留关键标记,在激进剪枝条件下仍可维持相近的性能表现。然而,获取所有层的注意力图需要完成一次完整的前向推理过程,增加了计算开销,因此在现有方法中难以实际应用;(iii)由小型VLM聚合得到的全局注意力图与大型VLM的注意力图高度相似,表明存在一种高效的替代方案。基于上述发现,我们提出了一种无需训练的方法——小型VLM引导的大型VLM加速方法(Small VLM Guidance for accelerating Large VLMs, SGL)。具体而言,我们利用小型VLM聚合得到的注意力图,指导大型VLM中的视觉标记剪枝。此外,我们设计了一种早期退出机制,充分挖掘小型VLM的预测能力,仅在必要时动态调用大型VLM,从而在准确率与计算成本之间实现了更优的权衡。在11个基准任务上的广泛实验表明,SGL具有出色的性能表现与良好的泛化能力,在保持竞争力性能的同时,实现了高达91%的视觉标记剪枝率。