Command Palette
Search for a command to run...
Jiaze Li Hao Yin Wenhui Tan Jingyang Chen Boshen Xu Yuxun Qu Yijing Chen Jianzhong Ju Zhenbo Luo Jian Luan

摘要
依赖纯文本反思机制的自我反思方法在多数多模态任务中表现良好。然而,当直接应用于长视频理解场景时,其性能表现出明显的局限性。这一现象的根本原因在于两点:(1)长视频理解涉及更丰富、更动态的视觉信息输入,仅对文本信息进行反思是不充分的,必须引入专门针对视觉信息的进一步反思过程;(2)纯文本反思机制缺乏跨模态交互能力,导致在反思过程中无法充分融合视觉信息。基于上述洞察,我们提出REVISOR(REflective VIsual Segment Oriented Reasoning)——一种面向工具增强的多模态反思新框架。REVISOR使多模态大语言模型(MLLMs)能够协同构建跨文本与视觉模态的内省式反思过程,显著提升其在长视频理解任务中的推理能力。为确保REVISOR在强化学习过程中能够准确识别与问题高度相关的视频片段进行审查,我们设计了双归属解耦奖励机制(Dual Attribution Decoupled Reward, DADR)。该机制与GRPO训练策略相结合,强制模型推理过程与所选视频证据之间建立因果一致性。值得注意的是,REVISOR框架在无需额外监督微调或引入外部模型的前提下,显著提升了MLLMs在长视频理解方面的能力,在VideoMME、LongVideoBench、MLVU和LVBench四个基准测试中均取得了卓越性能。