Command Palette
Search for a command to run...
Xinxin Liu Zhaopan Xu Kai Wang Yong Jae Lee Yuzhang Shang

摘要
尽管思维链(Chain-of-Thought, CoT)提示技术使大型语言模型具备了复杂的符号推理能力,但其仍局限于离散文本,难以模拟现实世界中连续且受物理规律支配的动态过程。近期出现的视频生成模型为实现世界模拟提供了新可能,通过“帧链”(Chain-of-Frames, CoF)推理机制——将思维过程具象化为逐帧呈现的视觉序列,每一帧均代表一个基于物理规律的推理步骤。尽管已有令人信服的演示成果,但一个核心挑战依然存在:现有评估基准主要关注视觉保真度或语义对齐,却未能衡量CoF推理能力,因而无法有效评估模型在多步规划、算法逻辑或抽象模式外推等核心认知能力方面的表现。这一评估空白阻碍了对模型能力的系统性理解,也难以提供有针对性的改进指导。为此,我们提出Gen-ViRe(Generative Visual Reasoning Benchmark,生成式视觉推理基准),该框架基于认知科学原理与真实世界人工智能应用需求,将CoF推理分解为六个认知维度——从感知逻辑到抽象规划——并构建了24项具体子任务。通过多源数据采集、极简提示协议设计,以及结合视觉语言模型(VLM)辅助的混合评估机制与详尽评分标准,Gen-ViRe首次实现了对视频生成模型作为推理引擎的量化评估。我们在前沿模型上的实验揭示了卓越的视觉质量与实际推理深度之间存在显著差距,为构建真正具备世界模拟能力的系统建立了基准线,并提供了诊断工具,推动该领域向更深层次的认知建模迈进。