摘要

世界模型（World Models, WMs）旨在充当现实世界的内部模拟器，使智能体（Agent）能够理解、预测并应对复杂环境。现有的世界模型基准测试仍局限于对“下一状态预测”和“视觉保真度”的评估，忽视了支撑智能行为所需的更丰富的模拟能力。为填补这一空白，我们提出了 WR-Arena，这是一个综合性的基准测试框架，用于从以下三个“下一世界模拟”的核心维度评估世界模型：（i）行动模拟保真度（Action Simulation Fidelity），即理解并遵循具有语义意义的多步指令，并生成多样化反事实推演（counterfactual rollouts）的能力；（ii）长程预测（Long-horizon Forecast），即在长时序交互中维持准确、连贯且符合物理规律的模拟能力；（iii）模拟推理与规划（Simulative Reasoning and Planning），即在结构化及开放环境中，通过模拟、比较并选择多种未来情景，以支持目标导向推理的能力。我们构建了任务分类体系，并精心策划了多样化的数据集，旨在深入探测上述能力，从而超越传统的单轮交互与纯感知评估。通过对当前最先进世界模型的广泛实验，我们的研究结果揭示了现有模型与人类水平的假设性推理能力之间存在显著差距，并确立了 WR-Arena 作为诊断工具与指导框架的双重价值，以推动具备稳健理解、预测及目的性行为能力的下一代世界模型的发展。

源 PDF 查看代码