Command Palette

Search for a command to run...

1 天前

PhysToolBench:面向MLLMs的物理工具理解能力评估

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

PhysToolBench:面向MLLMs的物理工具理解能力评估

摘要

能够使用、理解并创造工具,是人类智能的核心特征,使人类得以与物理世界进行复杂而精细的互动。对于任何通用智能体而言,若要实现真正的多功能性,也必须掌握这些基础技能。尽管现代多模态大语言模型(MLLMs)凭借其丰富的常识知识,在具身人工智能(embodied AI)以及下游视觉-语言-动作(VLA)模型中实现了高层次的规划能力,但其对物理工具的真实理解程度仍缺乏量化评估。为填补这一空白,我们提出了PhysToolBench——首个专门用于评估MLLMs对物理工具理解能力的基准测试。该基准以视觉问答(VQA)数据集的形式构建,包含超过1000组图像-文本配对,从三个不同难度层级全面评估模型能力:(1)工具识别:要求模型识别工具的主要功能;(2)工具理解:测试模型对工具工作原理深层机制的把握能力;(3)工具创造:在常规工具不可用的情况下,挑战模型利用周围物体构造出新工具的能力。我们对32个MLLMs(涵盖专有模型、开源模型、专用具身模型及VLA骨干模型)进行了全面评估,结果揭示了当前模型在工具理解方面存在显著不足。此外,我们提供了深入的分析,并提出了初步解决方案。相关代码与数据集已公开发布。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供