摘要

视频生成模型的快速演进，已使其研究重点从生成视觉上合理的内容，转向解决需要物理合理性与逻辑一致性的复杂任务。然而，尽管近期取得了如Veo 3所采用的“帧链推理”（chain-of-frames reasoning）等重要突破，这些模型是否具备与大型语言模型（LLMs）相媲美的推理能力，仍不明确。现有评估基准主要聚焦于视觉保真度与时间连贯性，难以有效衡量模型的高阶推理能力。为弥合这一差距，我们提出TiViBench——一个专为评估图像到视频（I2V）生成模型推理能力而设计的分层基准。TiViBench系统性地从四个维度评估推理能力：i）结构推理与搜索，ii）空间与视觉模式推理，iii）符号与逻辑推理，iv）动作规划与任务执行，并覆盖24种多样化的任务场景，分为三个难度层级。通过大规模实证评估，我们发现商业模型（如Sora 2、Veo 3.1）展现出更强的推理潜力，而开源模型虽具备尚未开发的潜力，但受限于训练规模与数据多样性，其表现仍不充分。为进一步释放这一潜力，我们提出VideoTPO——一种受偏好优化启发的简单而高效的测试时（test-time）策略。该方法通过让大语言模型对生成结果进行自我分析，识别其优势与不足，从而在无需额外训练、数据或奖励模型的前提下，显著提升推理性能。综上，TiViBench与VideoTPO共同为视频生成模型的推理能力评估与提升提供了新范式，为该新兴研究领域的发展奠定了坚实基础。

源 PDF 查看代码