Command Palette

Search for a command to run...

7 天前

TiViBench:面向视频生成模型的视频思维推理基准测试

TiViBench:面向视频生成模型的视频思维推理基准测试

摘要

视频生成模型的快速演进,已使其研究重点从生成视觉上合理的内容,转向解决需要物理合理性与逻辑一致性的复杂任务。然而,尽管近期取得了如Veo 3所采用的“帧链推理”(chain-of-frames reasoning)等重要突破,这些模型是否具备与大型语言模型(LLMs)相媲美的推理能力,仍不明确。现有评估基准主要聚焦于视觉保真度与时间连贯性,难以有效衡量模型的高阶推理能力。为弥合这一差距,我们提出TiViBench——一个专为评估图像到视频(I2V)生成模型推理能力而设计的分层基准。TiViBench系统性地从四个维度评估推理能力:i)结构推理与搜索,ii)空间与视觉模式推理,iii)符号与逻辑推理,iv)动作规划与任务执行,并覆盖24种多样化的任务场景,分为三个难度层级。通过大规模实证评估,我们发现商业模型(如Sora 2、Veo 3.1)展现出更强的推理潜力,而开源模型虽具备尚未开发的潜力,但受限于训练规模与数据多样性,其表现仍不充分。为进一步释放这一潜力,我们提出VideoTPO——一种受偏好优化启发的简单而高效的测试时(test-time)策略。该方法通过让大语言模型对生成结果进行自我分析,识别其优势与不足,从而在无需额外训练、数据或奖励模型的前提下,显著提升推理性能。综上,TiViBench与VideoTPO共同为视频生成模型的推理能力评估与提升提供了新范式,为该新兴研究领域的发展奠定了坚实基础。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供