HyperAI

“以文思辨”与“以图思辨”范式显著提升了大型语言模型（LLMs）和视觉语言模型（VLMs）的推理能力。然而，这些范式存在固有局限性：（1）图像仅能捕捉单一时刻，难以表征动态过程或连续变化；（2）文本与视觉作为独立模态分离，阻碍了统一的多模态理解与生成。为克服上述局限，我们提出“以视频思辨”（Thinking with Video）这一新范式，利用视频生成模型（如Sora-2）在统一的时间框架下实现视觉与文本推理的融合。为支持该范式的探索，我们构建了“视频思辨基准”（Video Thinking Benchmark, VideoThinkBench）。VideoThinkBench包含两类任务：（1）以视觉为中心的任务（如“目测谜题”）；（2）以文本为中心的任务（如GSM8K和MMMU的部分子集）。评估结果表明，Sora-2具备出色的推理能力：在以视觉为核心的任务中，Sora-2整体表现与当前最先进（SOTA）的VLMs相当，甚至在部分任务（如“目测游戏”）中超越现有VLMs；在以文本为核心的任务中，Sora-2在MATH上达到92%的准确率，在MMMU上达到75.53%的准确率。此外，我们系统性地分析了其能力的来源，发现自一致性（self-consistency）与上下文学习（in-context learning）可进一步提升Sora-2的性能。综上所述，我们的研究结果表明，视频生成模型具有成为统一多模态理解与生成模型的潜力，而“以视频思辨”正可作为统一的多模态推理新范式。

基于视频的思考：视频生成作为一种有前景的多模态推理范式

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng

摘要

用 AI 构建 AI

Hyper Newsletters

Command Palette

基于视频的思考：视频生成作为一种有前景的多模态推理范式

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng4 more

摘要

用 AI 构建 AI

Hyper Newsletters

Jingqi Tong Yurong Mou Hangcheng Li Mingzhe Li Yongzhuo Yang Ming Zhang Qiguang Chen Tianyi Liang Xiaomeng Hu Yining Zheng