OmniSpatial:面向全面空间推理的视觉语言模型基准测试
Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi
发布日期: 6/4/2025

摘要
空间推理是认知心理学的一个关键方面,也是当前视觉-语言模型(VLMs)面临的主要瓶颈之一。尽管大量研究致力于评估或改进VLMs对基本空间关系的理解,例如区分左右、远近以及物体计数,但这些任务仅代表了空间推理的最基本层次。在本研究中,我们引入了OmniSpatial,这是一个基于认知心理学的全面且具有挑战性的空间推理基准测试。OmniSpatial涵盖了四个主要类别:动态推理、复杂空间逻辑、空间交互和视角转换,共包含50个细分类别。通过互联网数据爬取和细致的人工标注,我们构建了超过1500个问题-答案对。广泛的实验表明,无论是开源还是闭源的VLMs,以及现有的推理和空间理解模型,在全面的空间理解方面都存在显著的局限性。我们进一步分析了失败案例,并提出了未来研究的潜在方向。