Command Palette
Search for a command to run...

摘要
视频生成模型的快速演进,已使其研究重点从生成视觉上合理的内容,转向解决需要物理合理性与逻辑一致性的复杂任务。然而,尽管近期取得了如Veo 3所采用的“帧链推理”(chain-of-frames reasoning)等重要突破,这些模型是否具备与大型语言模型(LLMs)相媲美的推理能力,仍不明确。现有评估基准主要聚焦于视觉保真度与时间连贯性,难以有效衡量模型的高阶推理能力。为弥合这一差距,我们提出TiViBench——一个专为评估图像到视频(I2V)生成模型推理能力而设计的分层基准。TiViBench系统性地从四个维度评估推理能力:i)结构推理与搜索,ii)空间与视觉模式推理,iii)符号与逻辑推理,iv)动作规划与任务执行,并覆盖24种多样化的任务场景,分为三个难度层级。通过大规模实证评估,我们发现商业模型(如Sora 2、Veo 3.1)展现出更强的推理潜力,而开源模型虽具备尚未开发的潜力,但受限于训练规模与数据多样性,其表现仍不充分。为进一步释放这一潜力,我们提出VideoTPO——一种受偏好优化启发的简单而高效的测试时(test-time)策略。该方法通过让大语言模型对生成结果进行自我分析,识别其优势与不足,从而在无需额外训练、数据或奖励模型的前提下,显著提升推理性能。综上,TiViBench与VideoTPO共同为视频生成模型的推理能力评估与提升提供了新范式,为该新兴研究领域的发展奠定了坚实基础。