从另一视角看:评估多视角理解在 多模态大型语言模型中的表现
Chun-Hsiao Yeh, Chenyu Wang, Shengbang Tong, Ta-Ying Cheng, Rouyu Wang, Tianzhe Chu, Yuexiang Zhai, Yubei Chen, Shenghua Gao, Yi Ma
发布日期: 4/23/2025

摘要
多视角理解,即在不同视角下整合视觉信息以实现有效的导航、操作和三维场景理解的能力,是作为具身代理使用的多模态大型语言模型(MLLMs)面临的一项基本挑战。尽管最近的MLLMs在高级推理和规划方面取得了令人瞩目的进展,但它们在处理多视角几何一致性及跨视角对应关系时往往表现不佳。为了全面评估MLLMs在多视角场景推理中的挑战,我们提出了All-Angles Bench基准测试,该测试包含超过2,100个人类精心标注的多视角问答对,涵盖了90个多样化的现实世界场景。我们的六个任务(计数、属性识别、相对距离、相对方向、物体操作和相机姿态估计)专门用于测试模型的几何对应关系以及其跨视角一致整合信息的能力。通过广泛的实验,并将27个代表性的MLLMs(包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o)与人类评估者进行对比,我们发现存在显著的性能差距,这表明当前的MLLMs远未达到人类水平的专业能力。深入分析表明,MLLMs在两个方面表现尤为不足:(1)部分遮挡视图的跨视角对应关系;(2)建立粗略的相机姿态。这些发现突显了需要进行领域特定优化或嵌入更强的多视角意识模块的重要性。我们相信All-Angles Bench提供了宝贵的见解,并有助于缩小MLLMs与人类水平多视角理解之间的差距。该项目及基准测试公开发布于https://danielchyeh.github.io/All-Angles-Bench/。 注:文中提到的Gemini-2.0-Flash, Claude-3.7-Sonnet, 和 GPT-4o为假设的人工智能模型名称,在实际翻译中应根据具体情况进行调整或保留原文。