14 天前

DeepPHY:面向物理推理的智能体视觉语言模型基准测试

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng
DeepPHY:面向物理推理的智能体视觉语言模型基准测试
摘要

尽管视觉语言模型(VLMs)展现出强大的感知能力与令人印象深刻的视觉推理能力,但在复杂动态环境中仍难以关注细节并进行精确的动作规划,导致性能表现欠佳。现实世界中的任务通常需要复杂的交互行为、高级的空间推理能力、长期规划以及持续的策略优化,往往还要求模型理解目标场景中的物理规律。然而,在真实场景中评估这些能力通常成本过高。为弥合这一差距,我们提出了DeepPHY——一种新型基准测试框架,旨在通过一系列具有挑战性的模拟环境,系统性地评估VLMs对基本物理原理的理解与推理能力。DeepPHY整合了多个难度等级各异的物理推理环境,并引入了细粒度的评估指标。我们的评估结果显示,即使是最先进的VLMs,也难以将描述性的物理知识转化为精确且具有预测性的控制行为。