Command Palette
Search for a command to run...
Sixun Dong Juhua Hu Mian Zhang Ming Yin Yanjie Fu Qi Qian

摘要
视觉-语言模型(Vision-Language Models, VLMs)通过将视觉输入转换为视觉标记(vision tokens),能够借助语言指令实现对视觉内容的出色理解。然而,视觉标记中存在的冗余问题导致VLMs的推理效率显著下降。尽管已有诸多算法被提出以减少视觉标记的数量,但大多数方法仅依赖单一模态信息(即视觉或文本)进行剪枝,忽略了视觉-语言任务固有的多模态特性。此外,当前尚缺乏一种可广泛适用于不同模态的通用判别准则。为缓解这一局限,本文提出一种新方法,通过“覆盖度”(coverage)准则,联合利用视觉与文本标记来选择具有信息量的视觉标记。我们首先将子集选择问题建模为最大覆盖问题,随后优化一个视觉标记子集,使其同时覆盖文本标记以及原始视觉标记集合。最后,引入一个VLM代理(VLM agent)进一步提升文本标记的质量,以指导视觉标记的剪枝过程。所提出的MmTok方法在多个基准数据集上,针对不同VLM架构进行了广泛评估。实验结果表明,视觉与文本信息具有互补性,融合多模态信息可显著超越单一模态基线。特别是在POPE数据集上采用最大覆盖准则时,该方法在保持LLaVA-NeXT-13B原始性能98.7%的前提下,实现了1.87倍的推理加速;而在仅保留4个视觉标记的情况下,仍可维持LLaVA-1.5-7B模型原始性能的87.7%。这些结果充分验证了覆盖度在标记选择中的有效性。