
摘要
物理推理依赖于前向预测能力,即根据初始世界状态预测后续将发生的情况。本文研究了当前最先进的前向预测模型在PHYRE基准测试中复杂物理推理任务上的表现。为此,我们将基于物体或像素表示的世界模型整合进简单的物理推理智能体中进行评估。研究发现,前向预测模型确实能够提升物理推理性能,尤其是在涉及多个物体的复杂任务中表现更为显著。然而,我们也发现,这种性能提升依赖于测试任务与训练任务之间仅存在微小差异;当面对完全全新的任务模板时,模型的泛化能力仍面临严峻挑战。令人意外的是,尽管像素级预测精度更高的模型在视觉重建上表现更优,但其物理推理性能并不一定更佳。尽管如此,我们所提出的最优模型在PHYRE基准测试上取得了新的最先进水平。