Command Palette
Search for a command to run...

摘要
“以文思辨”与“以图思辨”范式显著提升了大型语言模型(LLMs)和视觉语言模型(VLMs)的推理能力。然而,这些范式存在固有局限性:(1)图像仅能捕捉单一时刻,难以表征动态过程或连续变化;(2)文本与视觉作为独立模态分离,阻碍了统一的多模态理解与生成。为克服上述局限,我们提出“以视频思辨”(Thinking with Video)这一新范式,利用视频生成模型(如Sora-2)在统一的时间框架下实现视觉与文本推理的融合。为支持该范式的探索,我们构建了“视频思辨基准”(Video Thinking Benchmark, VideoThinkBench)。VideoThinkBench包含两类任务:(1)以视觉为中心的任务(如“目测谜题”);(2)以文本为中心的任务(如GSM8K和MMMU的部分子集)。评估结果表明,Sora-2具备出色的推理能力:在以视觉为核心的任务中,Sora-2整体表现与当前最先进(SOTA)的VLMs相当,甚至在部分任务(如“目测游戏”)中超越现有VLMs;在以文本为核心的任务中,Sora-2在MATH上达到92%的准确率,在MMMU上达到75.53%的准确率。此外,我们系统性地分析了其能力的来源,发现自一致性(self-consistency)与上下文学习(in-context learning)可进一步提升Sora-2的性能。综上所述,我们的研究结果表明,视频生成模型具有成为统一多模态理解与生成模型的潜力,而“以视频思辨”正可作为统一的多模态推理新范式。