Command Palette

Search for a command to run...

2 个月前

可解释的物理推理与视觉-语言模型的性能分类体系

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

可解释的物理推理与视觉-语言模型的性能分类体系

摘要

随着视觉-语言模型(VLMs)日益复杂化,其推理能力正受到越来越严格的审视。尽管这些模型在众多任务中表现出色,但它们对基本科学原理(如物理学)的理解仍处于尚未充分探索的前沿领域。为反映这一能力的最新进展,我们提出一种新颖且易于访问的评估框架,旨在严格检验VLMs对二维物理理解的水平。该框架包含一个实用的问题生成器,能够构建涵盖四个核心领域——抛体运动、碰撞动力学、力学与流体动力学——的多样化测试集,共包含400多个问题。通过对四种先进VLMs的全面评估,我们发现模型规模与推理能力之间存在显著正相关关系,其中表现最优的模型Qwen2.5-VL-7B取得了0.815的综合得分。研究发现,尽管模型在公式化问题上表现优异,但在需要抽象空间推理的领域仍面临显著挑战。通过构建这一框架,我们旨在推动科学推理能力研究的普惠化,促进对VLMs能力与局限性的深入理解。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供