Command Palette
Search for a command to run...

摘要
视觉-语言模型(Vision-Language Models, VLMs)常常面临视觉幻觉问题,即模型会描述图像中并不存在的内容;同时存在语言捷径问题,即模型跳过视觉信息的处理,仅依赖文本先验进行推理。这些问题的根源在于,当前大多数VLM的后训练方法仅依赖于可验证的答案匹配,并且仅对最终输出进行监督,导致中间阶段的视觉推理缺乏明确引导。因此,VLM接收到的视觉信号稀疏,往往倾向于优先采用基于语言的推理而非视觉感知。为缓解上述问题,已有部分方法通过引入人工标注或外部大模型蒸馏得到的标签来施加视觉监督。然而,人工标注成本高昂且耗时,而外部信号难以适应模型策略的动态演化,容易引发分布偏移,进而导致奖励劫持(reward hacking)现象。本文提出Vision-SR1,一种基于强化学习的自奖励机制,能够在不依赖外部视觉监督的情况下提升视觉推理能力。Vision-SR1将VLM的推理过程分解为两个阶段:视觉感知与语言推理。首先,模型被提示生成自包含的视觉感知结果,该结果本身应足以回答问题,无需回溯原始图像。为验证其自包含性,同一VLM模型随后被重新提示,仅以生成的视觉感知作为输入,执行语言推理并计算奖励信号。该自奖励信号与最终输出的监督信号相结合,形成一种平衡的训练信号,从而同时强化视觉感知与语言推理能力。实验结果表明,Vision-SR1在多种视觉-语言任务中均显著提升了视觉推理能力,有效缓解了视觉幻觉问题,并减少了对语言捷径的依赖。