5 天前

Video-Thinker：通过强化学习激发“用视频进行思考”

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

摘要

近年来，图像推理方法的进展，尤其是“视觉思维”（Thinking with Images）范式，在多模态大语言模型（MLLMs）中取得了显著成功；然而，这一动态推理范式尚未被拓展至视频推理任务。本文提出 Video-Thinker，通过使 MLLMs 自主利用其内在的“定位”（grounding）与“描述生成”（captioning）能力，在推理过程中自动生成推理线索，从而实现以视频为媒介的思维能力。为激发该能力，我们构建了 Video-Thinker-10K 数据集，该数据集包含在思维链（chain-of-thought）推理序列中自主使用工具的高质量样本。我们的训练策略首先采用监督微调（Supervised Fine-Tuning, SFT）学习推理格式，随后通过分组相对策略优化（Group Relative Policy Optimization, GRPO）进一步强化模型的推理能力。借助这一方法，Video-Thinker 使 MLLMs 能够自主完成视频推理中的定位与描述生成任务，无需依赖外部工具的构建与调用。大量实验表明，Video-Thinker 在域内任务及具有挑战性的域外视频推理基准测试中均取得显著性能提升，涵盖 Video-Holmes、CG-Bench-Reasoning 和 VRBench 等多个前沿评测集。其中，Video-Thinker-7B 模型在 7B 规模的 MLLMs 中表现卓越，显著优于现有基线模型（如 Video-R1），并达到了当前该规模模型的最先进水平。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

Video-Thinker：通过强化学习激发“用视频进行思考”

Shijian Wang Jiarui Jin Xingjian Wang Linxin Song Runhao Fu Hecheng Wang Zongyuan Ge Yuan Lu Xuelian Cheng

摘要

用 AI 构建 AI

Hyper Newsletters