HyperAI超神经

PhyX:您的模型具备物理推理的“智慧”吗?

Shen, Hui ; Wu, Taiqiang ; Han, Qi ; Hsieh, Yunta ; Wang, Jizhou ; Zhang, Yuyue ; Cheng, Yuxin ; Hao, Zijian ; Ni, Yuansheng ; Wang, Xin ; Wan, Zhongwei ; Zhang, Kai ; Xu, Wendong ; Xiong, Jing ; Luo, Ping ; Chen, Wenhu ; Tao, Chaofan ; Mao, Zhuoqing ; Wong, Ngai
发布日期: 5/26/2025
PhyX:您的模型具备物理推理的“智慧”吗?
摘要

现有的基准测试未能捕捉到智能的一个关键方面:物理推理。物理推理是一种综合能力,能够将领域知识、符号推理和对现实世界约束的理解结合起来。为了解决这一不足,我们引入了PhyX:首个大规模基准测试,旨在评估模型在视觉场景中基于物理学的推理能力。PhyX包含3000个精心策划的多模态问题,涵盖了25个子领域和6个核心物理学领域的6种推理类型:热力学、电磁学、力学、现代物理学、光学和波动与声学(wave\&acoustics)。在我们的全面评估中,即使是最先进的模型在物理推理方面也表现出显著的困难。GPT-4o、Claude3.7-Sonnet和GPT-o4-mini分别仅达到32.5%、42.2%和45.8%的准确率——与人类专家相比,性能差距超过29%。我们的分析揭示了当前模型的关键局限性:过度依赖记忆中的学科知识、过分依赖数学公式以及表面层次的视觉模式匹配而非真正的物理理解。我们通过细粒度统计、详细案例研究和多种评估范式提供了深入分析,以彻底考察物理推理能力。为了确保可重复性,我们基于广泛使用的工具包(如VLMEvalKit)实现了一个兼容的评估协议,支持一键评估。