Command Palette
Search for a command to run...
空间理论:Foundation Models 能否通过主动探索构建空间信念?
空间理论:Foundation Models 能否通过主动探索构建空间信念?
摘要
空间具身智能(Spatial embodied intelligence)通常在部分可观测性(partial observability)的环境下运行,在这种环境下,Agent 必须通过采取行动来获取缺失的信息,而非被动地接收完整的观测。在此类场景中,性能的提升取决于能否主动选择具有信息量的动作,从而降低不确定性并辅助构建空间认知。尽管多模态基础模型(multimodal foundation models)在被动式多模态感知与推理任务中表现出色,但它们在部分可观测条件下支持主动、自主探索的能力尚未得到系统性的研究。特别是,目前尚不清楚这些模型是否以及如何决定下一步该观测什么,以便随时间推移构建并维持连贯的空间信念(spatial belief)。因此,我们提出了“空间理论”(THEORY OF SPACE),将其定义为 Agent 通过自主、主动的探索来积极获取信息,并从连续的部分观测中构建、修正及利用空间信念的能力。我们利用一个包含文本和视觉环境的 benchmark 实现了 THEORY OF SPACE。该研究的目标并非解决特定任务,而是通过好奇心驱动的探索(curiosity-driven exploration)来构建完整且准确的空间信念。
一句话总结
作者提出了 THEORY OF SPACE,定义了 agent 在部分可观测条件下通过自主主动探索构建、修正和利用空间信念的能力,并通过基准测试实现这一目标,该基准包含文本和视觉环境,基础模型在其中进行好奇心驱动的探索,以从序列化的部分观测中构建完整、准确的空间信念,而非解决特定任务。
核心贡献
- 这项工作将 THEORY OF SPACE 定义为基础模型在部分可观测条件下通过自主探索主动获取信息并构建连贯空间信念的能力。该框架将空间评估从固定视角回答问题转变为随时间构建和维护可修正的世界模型。
- 一个新的多模态基准利用并行的文本和视觉世界实现了这一概念,允许对符号与感知观测流之间的故障进行受控诊断。该系统要求 agent 外化不断演变的认知地图和不确定性,使空间信念在任务无关的探索过程中变得可测量而非隐含。
- 实证结果表明,主动探索造成了显著瓶颈,感知错误和信念不稳定导致全局地图损坏。信念探针分析显示,模型在修正过时先验时表现出强烈的惯性,特别是在涉及方向和朝向的基于视觉的更新中。
引言
空间具身智能在部分可观测条件下运行,需要主动动作选择来构建空间理解。虽然多模态基础模型在被动感知任务上表现良好,但现有基准很少评估其支持自主探索或随时间保持连贯空间信念的能力。先前的工作经常将探索效率与特定任务目标混淆,或将内部认知状态视为不透明的。为解决这一问题,作者引入了 THEORY OF SPACE,这是一个评估 agent 在不依赖特定下游任务的情况下主动获取信息并修正内部空间信念能力的框架。他们实施了一个包含文本和视觉环境的基准,并开发了空间信念探针以外部化并衡量 agent 认知地图的质量。该方法揭示了当前模型的关键局限性,包括主动探索期间的性能下降以及无法覆盖过时空间先验。
数据集
- 数据集构成和来源: 作者利用 N 乘 M 网格上的程序生成多房间室内布局,而非静态真实世界数据。视觉资产源自 Objaverse 库并使用 ThreeDWorld 模拟器渲染。
- 子集的关键细节: 环境支持并行的文本和视觉世界。视觉世界提供 384 乘 384 分辨率的自中心 RGB 图像,使用包含 293 个不同 3D 模型的库。为确保多样性,每个物体类型在单个场景中最多出现一次。文本世界提供符号观测,方向距离使用离散化区间。
- 研究中的用途: 基准测试过程将交互分为用于信念构建的探索阶段和用于空间任务的推理阶段。agent 通过 Gym-style 接口交互,使用 Observe 和 Rotate 等高级动作。评估任务采用开放式问题来测量路线和调查知识,同时最小化知识泄露。
- 处理和元数据构建: 空间关系被离散化为八个 45 度区间用于地心方向,五个标签用于 90 度视野内的自中心视图。距离分为六个区间,范围从相同到非常远。视觉设置包括参考图像以校准单位距离和角度锥的感知。
方法
作者将空间理论形式化为通过三个核心操作操纵概率信念 Bt 的能力:构建、修正和利用。整体框架涉及 agent 在部分可观测环境中导航以执行主动探索并更新其内部空间信念,如框架图所示。
agent 在离散化观测空间内运行以促进推理。视觉和文本观测被映射到特定距离区间(近、中、远)和角度扇区(例如,前左、前右),为模型提供结构化输入,如下方图所示。
为了诊断基础模型如何管理这些信念,该方法采用显式探针机制。agent 处理其探索历史以生成结构化认知地图并识别未探索区域,有效地外部化其内部空间表示,如下方图所示。
信念利用的评估分为两个主要任务:路线信念和调查信念。前者评估自中心、基于路径的推理和地标关系,而后者评估地心、类地图理解和全局空间推理,如下方图所示。
最后,agent 由一组全面的提示引导,这些提示定义了探索目标、动作约束和格式规则。这些提示确保 agent 遵守空间推理任务并提供结构化输出,如下方图所示。
实验
评估框架通过文本和视觉模态中的主动探索和被动理解设置来评估空间认知,利用标准化 proxy agents 将推理能力与探索效率隔离。结果表明存在显著的模态差距,其中基于文本的性能始终超过基于视觉的推理,而主动探索策略由于信息覆盖不完整和动作成本较高,通常表现不如被动理解。对认知地图的诊断性探针强调,visual agents 在环境变化期间遭受信念更新不稳定和难以覆盖过时先验的问题。
提供的数据比较了 GPT-5.2 和 GEMINI-3 PRO 在文本和视觉环境中的主动探索利用性能。GEMINI-3 PRO 在两种模态下的表现均高于 GPT-5.2。此外,结果显示两种模型在视觉设置中的表现均高于文本设置。GEMINI-3 PRO 在文本和视觉任务中均优于 GPT-5.2。基于视觉的性能指标超过基于文本的设置。两种模型之间的性能差距在视觉模态中更大。
评估突出了基于文本和基于视觉环境之间的显著性能差异,文本设置中的准确性指标明显更高。在基于视觉的任务中,GEMINI-3 PRO 在正确性和感知类别上始终优于 GPT-5.2,而 GPT-5.2 在基于文本的场景中表现出更高的稳定性。两种模型在视觉环境中都面临方向估计的重大挑战,其中得分明显低于位置准确性。与基于视觉的环境相比,基于文本的环境产生了明显更高的正确性和感知分数。GEMINI-3 PRO 在基于视觉的任务中实现了优于 GPT-5.2 的整体正确性和感知。在基于视觉的设置中,两种模型的朝向准确性均明显低于位置准确性。
数据比较了专有模型在基于视觉和基于文本环境中的空间推理任务,突出了文本性能优于的显著模态差距。GEMINI-3 PRO 在基于视觉的设置中实现了更高的平均分数,而 GPT-5.2 在基于文本的设置中表现出更强的性能。对于两种模型,基于文本的推理任务产生的准确性得分明显高于基于视觉的任务。GEMINI-3 PRO 在基于视觉的世界中在大多数空间推理指标上优于 GPT-5.2。GPT-5.2 在基于文本的世界环境中实现了比 GEMINI-3 PRO 更高的整体平均分数。
作者评估了专有模型在视觉和文本环境中分为路线和调查类别的空间推理任务。结果显示存在显著的模态差距,其中所有任务的基于文本的性能明显超过基于视觉的性能。在此特定评估设置中,GPT-5.2 在两种模态中均显示出最高的整体平均分数。与基于视觉的设置相比,基于文本的环境在所有空间推理任务中产生了明显更高的准确性。在此评估中,GPT-5.2 在文本和视觉模态中的平均性能均高于 GEMINI-3 PRO。感知和心理旋转任务在从文本过渡到视觉输入时表现出有效性急剧下降。
作者评估了多房间环境中的空间推理能力,比较了文本和视觉模态中的 2 房间和 4 房间配置。结果显示,增加环境复杂性导致整体性能下降,并显著扩大了被动理解与主动探索成功之间的差距。与 GPT-5.2 相比,GEMINI-3 PRO 在复杂布局中的主动任务中表现出更强的鲁棒性,尽管两种模型在基于文本的设置中均表现明显优于基于视觉的设置。随着房间数量增加,性能指标下降,被动和主动结果之间的差异增大。与 GPT-5.2 相比,GEMINI-3 PRO 在 4 房间设置中相对于被动性能保持了更高的主动探索准确性。对于两种模型,基于视觉的环境始终导致比基于文本的环境更低的准确性得分。
评估比较了 GPT-5.2 和 GEMINI-3 PRO 在文本和视觉模态中随环境复杂性增加的空间推理和主动探索任务。所有设置中的一致发现是,对于两种模型,基于文本的性能明显超过基于视觉的准确性。性能结果因评估上下文而异,GEMINI-3 PRO 在视觉鲁棒性方面领先,而 GPT-5.2 在特定基于文本或整体配置中表现出色。