Command Palette
Search for a command to run...
Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

摘要
随着视觉-语言模型(VLMs)日益复杂化,其推理能力正受到越来越严格的审视。尽管这些模型在众多任务中表现出色,但它们对基本科学原理(如物理学)的理解仍处于尚未充分探索的前沿领域。为反映这一能力的最新进展,我们提出一种新颖且易于访问的评估框架,旨在严格检验VLMs对二维物理理解的水平。该框架包含一个实用的问题生成器,能够构建涵盖四个核心领域——抛体运动、碰撞动力学、力学与流体动力学——的多样化测试集,共包含400多个问题。通过对四种先进VLMs的全面评估,我们发现模型规模与推理能力之间存在显著正相关关系,其中表现最优的模型Qwen2.5-VL-7B取得了0.815的综合得分。研究发现,尽管模型在公式化问题上表现优异,但在需要抽象空间推理的领域仍面临显著挑战。通过构建这一框架,我们旨在推动科学推理能力研究的普惠化,促进对VLMs能力与局限性的深入理解。