Command Palette
Search for a command to run...
Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

摘要
近年来,图像推理方法的进展,尤其是“视觉思维”(Thinking with Images)范式,在多模态大语言模型(MLLMs)中取得了显著成功;然而,这一动态推理范式尚未被拓展至视频推理任务。本文提出 Video-Thinker,通过使 MLLMs 自主利用其内在的“定位”(grounding)与“描述生成”(captioning)能力,在推理过程中自动生成推理线索,从而实现以视频为媒介的思维能力。为激发该能力,我们构建了 Video-Thinker-10K 数据集,该数据集包含在思维链(chain-of-thought)推理序列中自主使用工具的高质量样本。我们的训练策略首先采用监督微调(Supervised Fine-Tuning, SFT)学习推理格式,随后通过分组相对策略优化(Group Relative Policy Optimization, GRPO)进一步强化模型的推理能力。借助这一方法,Video-Thinker 使 MLLMs 能够自主完成视频推理中的定位与描述生成任务,无需依赖外部工具的构建与调用。大量实验表明,Video-Thinker 在域内任务及具有挑战性的域外视频推理基准测试中均取得显著性能提升,涵盖 Video-Holmes、CG-Bench-Reasoning 和 VRBench 等多个前沿评测集。其中,Video-Thinker-7B 模型在 7B 规模的 MLLMs 中表现卓越,显著优于现有基线模型(如 Video-R1),并达到了当前该规模模型的最先进水平。