5 个月前

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

摘要

随着视觉-语言模型（VLMs）日益复杂化，其推理能力正受到越来越严格的审视。尽管这些模型在众多任务中表现出色，但它们对基本科学原理（如物理学）的理解仍处于尚未充分探索的前沿领域。为反映这一能力的最新进展，我们提出一种新颖且易于访问的评估框架，旨在严格检验VLMs对二维物理理解的水平。该框架包含一个实用的问题生成器，能够构建涵盖四个核心领域——抛体运动、碰撞动力学、力学与流体动力学——的多样化测试集，共包含400多个问题。通过对四种先进VLMs的全面评估，我们发现模型规模与推理能力之间存在显著正相关关系，其中表现最优的模型Qwen2.5-VL-7B取得了0.815的综合得分。研究发现，尽管模型在公式化问题上表现优异，但在需要抽象空间推理的领域仍面临显著挑战。通过构建这一框架，我们旨在推动科学推理能力研究的普惠化，促进对VLMs能力与局限性的深入理解。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

摘要

随着视觉-语言模型（VLMs）日益复杂化，其推理能力正受到越来越严格的审视。尽管这些模型在众多任务中表现出色，但它们对基本科学原理（如物理学）的理解仍处于尚未充分探索的前沿领域。为反映这一能力的最新进展，我们提出一种新颖且易于访问的评估框架，旨在严格检验VLMs对二维物理理解的水平。该框架包含一个实用的问题生成器，能够构建涵盖四个核心领域——抛体运动、碰撞动力学、力学与流体动力学——的多样化测试集，共包含400多个问题。通过对四种先进VLMs的全面评估，我们发现模型规模与推理能力之间存在显著正相关关系，其中表现最优的模型Qwen2.5-VL-7B取得了0.815的综合得分。研究发现，尽管模型在公式化问题上表现优异，但在需要抽象空间推理的领域仍面临显著挑战。通过构建这一框架，我们旨在推动科学推理能力研究的普惠化，促进对VLMs能力与局限性的深入理解。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供