Command Palette
Search for a command to run...
SpatialTree:空间能力在MLLMs中的分支发展
SpatialTree:空间能力在MLLMs中的分支发展
Yuxi Xiao Longfei Li Shen Yan Xinhang Liu Sida Peng Yunchao Wei Xiaowei Zhou Bingyi Kang
Abstract
认知科学表明,空间能力的发展是一个逐步演进的过程,从感知到推理,再到交互。然而,在多模态大语言模型(MLLMs)中,这一发展层级仍缺乏深入理解,因为大多数研究仅聚焦于有限的一组任务。为此,我们提出SpatialTree——一个受认知科学启发的层级架构,将空间能力划分为四个层次:低层感知(L1)、心理建图(L2)、模拟推演(L3)以及代理性能力(L4)。基于该分类体系,我们构建了首个以能力为中心的分层评估基准,全面评估主流MLLMs在27项子能力上的表现。评估结果揭示出清晰的结构特征:L1层次的能力之间基本相互独立,而高层级能力则表现出显著的相关性,表明随着层级提升,各能力之间的相互依赖性不断增强。通过针对性的监督微调,我们发现一种出人意料的迁移现象——L1层内部存在负向迁移,但低层能力向高层能力的跨层级迁移却极为显著,并呈现出明显的协同效应。最后,我们探索了如何系统性提升整个能力层级。研究发现,简单的强化学习(RL)策略若鼓励模型进行大量“思考”,其效果不可靠:虽然有助于复杂推理,却会损害直观感知能力。为此,我们提出一种简洁的“自动思考”(auto-think)策略,通过抑制不必要的深度思辨,使强化学习能够在所有层级上稳定提升模型性能。通过构建SpatialTree,我们为理解并系统化扩展MLLMs中的空间能力提供了一个概念验证框架,为未来智能体在复杂空间任务中的能力发展提供了新的研究路径。
一句话总结
浙江大学、字节跳动种子实验室与北京交通大学的研究团队提出SpatialTree——一种受认知科学启发的四层空间能力层级结构,用于多模态大语言模型(MLLM)。该基准测试揭示了低层感知技能的正交性与高层推理能力的强相关性,并发现跨层级迁移效益。团队引入自动思考策略,在强化学习过程中抑制不必要的深度推理,与以往不可靠的方法不同,该策略能系统性提升空间认知能力并持续增强所有层级的性能。
主要贡献
- 提出受认知科学启发的层级分类法SpatialTree,将多模态大语言模型的空间能力组织为四个渐进层级(L1感知到L4代理能力),解决了传统任务导向评估缺乏结构化理解的问题。该框架通过27种子能力评估,系统分析了空间技能依赖关系,发现L1技能高度正交,而高层技能呈现强相关性。
- 首创以能力为核心的空間智能基准测试,严格评估主流多模态大语言模型,揭示关键迁移动态:微调过程中L1感知技能内存在负迁移,但低层到高层能力间出现显著的跨层级迁移与协同效应,为高效能力扩展指明路径。
- 发现强化学习在空间任务中的局限性——过度"思考"虽提升复杂推理但损害直觉感知,由此提出自动思考策略抑制非必要深度推理。经基准验证,该策略使强化学习能持续提升所有层级性能,突破传统方法的不稳定性。
引言
空间智能——即感知、推理和交互2D/3D空间的能力——对多模态大语言模型处理导航或物理推理等现实任务至关重要,但其复杂性阻碍了系统性研究。先前工作将空间能力碎片化为孤立任务评估(如单图像定位或3D点云分析),未能揭示基础技能如何分层组合及跨场景迁移。作者通过引入SpatialTree(首个以能力为核心的框架),将空间智能组织为四层认知层级(L1-L4),使多模态大语言模型能通过策略性数据利用,实现能力涌现的结构化分析与定向扩展策略.
数据集
作者提出SpatialTree-Bench——首个以能力为核心的空間智能基准测试,按四层层级结构组织。核心概要如下:
-
组成与来源:
- 整合10+现有数据集(如CameraBench, MMSI-Bench)覆盖L1-L3空间能力
- 通过SpatialEngine新增SpatialPlus数据集填补空白(尤其L4),基于3D重建数据、游戏录像、第一人称视频及机器人数据集生成
-
关键子集细节:
- L1感知(样本量:约1.5万):利用专家模型(DepthAnything3, SpatialTracker)提取几何属性(距离、尺寸、运动),经QA模板过滤与大语言模型重述
- L2心智地图(样本量:约8000):处理3D重建管道生成的鸟瞰图,通过多模态大语言模型增强空间描述与记忆检索QA
- L3心智模拟(样本量:约1.2万):使用结构化思维链模板增强推理任务,过滤策略侧重因果/关系问题解决
- L4空间代理(样本量:约5000):整合网络导航/操作数据(人手、机器人),人工标注强制多步动作序列
-
训练/评估应用:
- 训练集混合SpatialPlus与通用视觉指令数据(LLaVA-Video, LLaVA-NeXT),采用VST混合比例(80%通用数据,20%空间数据)
- 通过混合多选项+大语言模型裁判协议实现细粒度能力评估
- 监督微调/强化学习实验揭示层级依赖:L1技能迁移至高层,而强化学习暴露推理/感知权衡
-
处理策略:
- L4动作通过动作提取管道离散化为高层运动基元(如"Dolly In", "Pan Left")
- 多格式QA生成(选择题、抽象描述)提升单问题多样性
- 人工标注将交互序列转为可执行多步任务,大语言模型重述QA确保语言一致性
方法
作者基于层级分类法SpatialTree构建框架,从基础感知到代理执行系统化组织与评估空间智能。该架构不仅描述认知发展过程(低层提供高层推理所需的感知支架),更通过多阶段数据引擎和加权聚合指标实现操作化。
底层L1(感知)涵盖基础视觉感知能力:几何(距离、尺寸、形状)、运动(自我中心、环境中心)、朝向(重力、物体)、关系(拓扑、对应)及定位(检测、接地)。通过自动化管道利用专家模型与大语言模型从网络图像生成问答对,确保覆盖广泛现实空间线索。如下图所示,这些感知基元是所有上层能力的构建模块。

L2(心智地图)实现从原始感知到语义对齐的过渡,包含理解(视觉场景转语言描述、功能识别、视角转换)与记忆(从碎片观察构建/检索认知地图)。该层级数据引擎处理原始图像/视频,应用重建与增强管道,通过多模态描述生成测试空间理解与记忆检索的提示。下图展示该层如何连接感知、语言与记忆,使系统能推理物体功能与空间历史。

L3(心智模拟)引入空间构型的因果与序列推理,包含几何谜题、路径规划及操作排序等任务,要求代理模拟变换并预测结果。其数据引擎利用思维链(CoT)管道与大语言模型重述,从标注数据集(如积木操作序列)生成复杂推理提示。该层需整合记忆与理解以在执行前模拟空间动态。
L4(代理能力)代表能力顶峰:将内部计划转化为3D环境中的可执行动作。作者将代理决策形式化为概率模型:
(St,At,Mt)∼Pθ(⋅∣Ot,Ht−1),其中Ht−1={(O0,A0,M0),…,(Ot−1,At−1,Mt−1)}其中Ot为多模态观测,St为隐状态,At为动作,Mt为更新记忆。动作映射至标准化运动空间:导航采用6自由度(如dolly, truck, pedestal, pan, tilt, roll),操作采用7自由度(含夹爪状态),实现跨领域评估。L4数据引擎整合游戏视频、机器人数据集及人手操作片段,通过人工标注与动作提取管道生成需逐步控制序列的提示。
为评估该层级性能,作者实施自底向上的加权聚合方案。如下图所示,SpatialTree每个节点按基础重要性赋予权重,L1因作为高层前提获得最高权重(0.25)。父节点分数递归计算为子节点分数的加权和,确保指标既符合认知层级理论,又经模型性能相关性分析验证。

训练与评估过程采用分层而非整体化策略:模型在渐进复杂任务中接受测试,各层级表现指导后续层级。数据引擎保障可扩展性与多样性,动作映射与提示模板标准化输出格式以实现公平比较。该架构实现空间智能的细粒度、可解释评估,超越单任务基准,建立统一的多层评估框架。
实验
- 在27种子能力上评估多模态大语言模型:Gemini 2.5 Pro综合得分50.1,开源模型Qwen3-VL得40.0;揭示L1技能正交性,而高层(L3-L4)强相关性表明能力互依性
- 低层能力(如距离、尺寸)监督微调显示L1内负迁移,但跨层级增益显著:机器人操作提升27.1%,复杂推理提升36.0%;多能力混合训练产生+1.1综合协同效应
- 结合自动思考策略的层级感知强化学习抑制直觉任务的过度推理,相比不可靠的基础强化学习方法,实现所有空间层级的持续性能提升
作者评估Qwen2.5-VL-7B在不同强化学习策略下的表现:全量自动思考强化学习获得最高平均分(30.8),显著提升多数子能力(尤其L4代理能力);而无自动思考的基础强化学习损害L2心智地图与L3心智模拟性能,分层定向强化学习效果参差,表明层级化奖励设计对平衡空间能力发展至关重要。

作者在层级空间基准上评估微调后的多模态大语言模型:融合多低层感知能力(距离、尺寸、对应)在高层任务中产生协同增益,而单能力微调常损害同层级性能。结果表明混合训练提升综合得分并缓解负迁移,显著增强心智地图与代理能力。

作者在层级空间基准上评估多模态大语言模型:Gemini 2.5 Pro综合得分最高(50.1),开源模型中Qwen3VL-235B领先(40.0)。结果表明思考型模型在目标执行与开放探索等高层任务表现优异,而GPT-4o、Gemini 2.5 Pro NT等非思考模型尽管感知得分尚可,但在代理能力上明显落后。开源模型普遍表现较弱,Qwen3VL-235B各层级平衡性最佳,但在模拟与代理任务上仍落后于专有思考模型。

作者通过皮尔逊相关性分析揭示:高层空间能力(L3-L4)强互依,低层感知技能(L1)相关性弱,表明其运作相对独立。结果证实:特定低层能力微调可能引发同层级负迁移,但能促进向高层推理与执行任务的正向跨层级迁移。该结构支持空间智能的层级模型——基础感知技能支撑日益复杂的互依推理能力。
