Command Palette
Search for a command to run...
Mohsen Gholami Ahmad Rezaei Zhou Weimin Yong Zhang Mohammad Akbari

摘要
当前视觉-语言模型(VLMs)在理解三维空间关系方面仍存在显著局限。以往研究通过构建基于单张图像或室内视频的空间问答(QA)数据集来应对这一挑战。然而,现实世界中的具身人工智能代理(如机器人和自动驾驶汽车)通常依赖于以自我为中心的多视角观测。为此,我们提出了Ego3D-Bench——一个全新的基准测试数据集,旨在利用以自我为中心的多视角户外数据,评估VLMs的空间推理能力。Ego3D-Bench包含超过8,600对问答数据,由大量人工标注者深度参与构建,以确保数据的质量与多样性。我们对16个当前最先进的VLMs(包括GPT-4o、Gemini 1.5-Pro、InternVL3和Qwen2.5-VL)进行了基准测试。结果表明,人类水平得分与VLM性能之间存在明显差距,凸显当前VLMs在三维空间理解方面仍远未达到人类水平。为弥合这一差距,我们提出Ego3D-VLM——一种后训练框架,可有效提升VLMs的三维空间推理能力。Ego3D-VLM基于估计的全局三维坐标生成认知地图,在多选题问答任务上平均提升12%,在绝对距离估计任务上平均提升56%。Ego3D-VLM具有模块化设计,可与任意现有VLM无缝集成。综上,Ego3D-Bench与Ego3D-VLM共同为实现真实世界、多视角环境下的类人空间理解提供了重要工具。