Command Palette

Search for a command to run...

17 天前

基于视频的思考:视频生成作为一种有前景的多模态推理范式

基于视频的思考:视频生成作为一种有前景的多模态推理范式

摘要

“以文思辨”与“以图思辨”范式显著提升了大型语言模型(LLMs)和视觉语言模型(VLMs)的推理能力。然而,这些范式存在固有局限性:(1)图像仅能捕捉单一时刻,难以表征动态过程或连续变化;(2)文本与视觉作为独立模态分离,阻碍了统一的多模态理解与生成。为克服上述局限,我们提出“以视频思辨”(Thinking with Video)这一新范式,利用视频生成模型(如Sora-2)在统一的时间框架下实现视觉与文本推理的融合。为支持该范式的探索,我们构建了“视频思辨基准”(Video Thinking Benchmark, VideoThinkBench)。VideoThinkBench包含两类任务:(1)以视觉为中心的任务(如“目测谜题”);(2)以文本为中心的任务(如GSM8K和MMMU的部分子集)。评估结果表明,Sora-2具备出色的推理能力:在以视觉为核心的任务中,Sora-2整体表现与当前最先进(SOTA)的VLMs相当,甚至在部分任务(如“目测游戏”)中超越现有VLMs;在以文本为核心的任务中,Sora-2在MATH上达到92%的准确率,在MMMU上达到75.53%的准确率。此外,我们系统性地分析了其能力的来源,发现自一致性(self-consistency)与上下文学习(in-context learning)可进一步提升Sora-2的性能。综上所述,我们的研究结果表明,视频生成模型具有成为统一多模态理解与生成模型的潜力,而“以视频思辨”正可作为统一的多模态推理新范式。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于视频的思考:视频生成作为一种有前景的多模态推理范式 | 论文 | HyperAI超神经