
摘要
视觉空间推理对于使多模态大语言模型(MLLMs)理解物体属性与空间关系至关重要,然而当前模型在三维感知推理方面仍存在显著挑战。现有方法通常仅聚焦于提升感知能力,通过在RGB输入基础上引入深度图、分割图等辅助模态来增强视觉理解;或侧重于推理能力的提升,通过在空间问答(spatial VQA)数据集上训练并结合强化学习来实现。然而,这些方法往往将感知与推理两个方面割裂处理,未能实现协同优化。在本研究中,我们探讨了一个统一的多模态大语言模型是否能够自发地发展出增强空间感知的能力,并通过自适应的交错式推理机制,实现更强的空间智能。为此,我们提出了COOPER——一种统一的多模态大语言模型。该模型利用深度图与分割图作为辅助模态,并采用两阶段训练策略,以习得生成辅助模态的能力以及自适应的交错式推理能力。实验结果表明,COOPER在空间推理任务上实现了平均6.91%的性能提升,同时保持了模型在通用任务上的表现。更为重要的是,即使仅训练生成辅助模态的变体版本,也在距离与尺寸估计任务上取得了7.92%的显著提升。这一结果表明,学习生成辅助模态的过程有助于模型内化空间知识,从而显著增强其空间理解能力。