6 个月前

Rohit Girdhar Laura Gustafson Aaron Adcock Laurens van der Maaten

摘要

物理推理依赖于前向预测能力，即根据初始世界状态预测后续将发生的情况。本文研究了当前最先进的前向预测模型在PHYRE基准测试中复杂物理推理任务上的表现。为此，我们将基于物体或像素表示的世界模型整合进简单的物理推理智能体中进行评估。研究发现，前向预测模型确实能够提升物理推理性能，尤其是在涉及多个物体的复杂任务中表现更为显著。然而，我们也发现，这种性能提升依赖于测试任务与训练任务之间仅存在微小差异；当面对完全全新的任务模板时，模型的泛化能力仍面临严峻挑战。令人意外的是，尽管像素级预测精度更高的模型在视觉重建上表现更优，但其物理推理性能并不一定更佳。尽管如此，我们所提出的最优模型在PHYRE基准测试上取得了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Rohit Girdhar Laura Gustafson Aaron Adcock Laurens van der Maaten

摘要

物理推理依赖于前向预测能力，即根据初始世界状态预测后续将发生的情况。本文研究了当前最先进的前向预测模型在PHYRE基准测试中复杂物理推理任务上的表现。为此，我们将基于物体或像素表示的世界模型整合进简单的物理推理智能体中进行评估。研究发现，前向预测模型确实能够提升物理推理性能，尤其是在涉及多个物体的复杂任务中表现更为显著。然而，我们也发现，这种性能提升依赖于测试任务与训练任务之间仅存在微小差异；当面对完全全新的任务模板时，模型的泛化能力仍面临严峻挑战。令人意外的是，尽管像素级预测精度更高的模型在视觉重建上表现更优，但其物理推理性能并不一定更佳。尽管如此，我们所提出的最优模型在PHYRE基准测试上取得了新的最先进水平。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供