11 天前
SpatialVLM:赋予视觉-语言模型空间推理能力
Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia

摘要
理解与推理空间关系是视觉问答(Visual Question Answering, VQA)和机器人技术中的基础能力。尽管视觉语言模型(Vision Language Models, VLM)在某些VQA基准测试中表现出色,但在三维空间推理方面仍存在明显不足,例如难以准确识别物理对象之间的定量关系,如距离或尺寸差异。我们推测,VLM在空间推理能力上的局限性,主要源于训练数据中缺乏三维空间知识。为此,我们提出通过引入互联网规模的空间推理数据来训练VLM,以解决这一问题。为此,我们构建了一套系统化的方法。首先,我们开发了一个自动化的三维空间VQA数据生成框架,可在一千万张真实世界图像上生成高达20亿个VQA样本。随后,我们系统研究了训练过程中的多种关键因素,包括数据质量、训练流程以及VLM架构设计。本工作首次构建了基于度量空间的互联网规模三维空间推理数据集。通过在该数据集上训练VLM,我们显著提升了其在定性与定量空间VQA任务中的表现。最终,我们证明,该VLM凭借其强大的定量估算能力,能够支持全新的下游应用,包括链式思维(chain-of-thought)空间推理与机器人任务。项目主页:https://spatial-vlm.github.io/