Command Palette
Search for a command to run...

摘要
视觉空间推理(Visual Spatial Reasoning, VSR)是人类核心认知能力之一,也是推动具身智能与自主系统发展的关键需求。尽管视觉-语言模型(Vision-Language Models, VLMs)近年来取得了显著进展,但由于三维空间的表征与推理机制极为复杂,实现人类水平的VSR仍面临巨大挑战。本文系统性地研究了VLMs中的视觉空间推理能力,全面回顾了现有方法在输入模态、模型架构、训练策略及推理机制等方面的进展。此外,我们将空间智能划分为三个能力层级:基础感知、空间理解与空间规划,并构建了SIBench——一个涵盖23种任务设置下近20个开源数据集的空间智能基准测试平台。对当前最先进VLMs的实验结果表明,模型在感知与推理之间存在显著差距:尽管在基础感知任务中表现良好,但在理解与规划任务中持续表现不佳,尤其在数值估算、多视角推理、时序动态建模以及空间想象等关键方面表现尤为薄弱。这些发现凸显了实现真正空间智能所面临的重大挑战,同时为未来研究提供了系统的路线图与全面的基准评估工具。本研究的相关资源可访问:https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/。