Command Palette
Search for a command to run...
ESI-BENCH:迈向闭环感知-行动的具身空间智能
ESI-BENCH:迈向闭环感知-行动的具身空间智能
Yining Hong Jiageng Liu Han Yin Manling Li Leonidas Guibas Li Fei-Fei Jiajun Wu Yejin Choi
摘要
空间智能通过感知-行动循环得以展现:智能体采取行动以获取观测数据,并推理观测结果如何随行动而变化。不同于被动处理视觉信息,智能体主动揭示那些无法通过被动传感单独解析的未被直接观测到的结构、动态关系、包容性以及功能特性。我们突破了以往假设拥有“全知观测”(oracle observations)的空间智能框架,将观察者重构为行动者。我们引入了 ESI-BENCH,这是一个基于 OmniGibson 平台、扎根于 Spelke 核心知识体系(core knowledge systems)的具身空间智能综合基准测试,涵盖 10 个任务类别和 29 个子类别。智能体必须决定部署哪些能力——即感知、移动和操纵——并如何对它们进行排序,以主动积累与任务相关的证据。我们在最先进的大型多模态语言模型(MLLMs)上进行了大量实验,发现主动探索的表现显著优于被动方式。智能体无需显式指令,便能自发发现涌现的空间策略;相比之下,尽管随机多视图方法消耗了大量图像,但往往引入噪声而非有效信号。大多数失败并非源于感知能力不足,而是源于“行动盲区”(action blindness):错误的行动选择导致低质量的观测,进而引发级联错误。
一句话总结
作者介绍了 ESI-BENCH,这是一个基于 OmniGibson 并扎根于 Spelke 核心知识系统的具身空间智能综合基准,它通过要求 agents 对感知、移动和操作能力进行排序以主动积累任务相关证据,从而闭合感知 - 动作循环,并通过在最先进的 MLLMs 上的实验证明,主动探索显著优于被动对应方法,且大多数失败源于行动盲目性而非感知薄弱。
核心贡献
- ESI-BENCH 被引入作为基于 OmniGibson 的具身空间智能综合基准,涵盖 10 个任务类别、29 个子类别和 3,081 个任务实例,扎根于 Spelke 的核心知识系统。该基准通过要求 agents 确定部署和排序哪些具身能力来回答无法仅从被动观察中解决的问题,从而解决了感知 - 动作差距。
- 空间智能被重新定义为从被动感知到主动探索,要求 agents 确定哪些观察值得获取以优先处理任务相关信息。在最先进的 MLLMs 上的实验表明,主动探索显著优于被动对应方法,agents 在没有明确指令的情况下自发发现了涌现的空间策略。
- 分析显示,行动盲目性主导了感知盲目性,因为糟糕的行动选择会导致信息匮乏的视图,从而引发级联错误。进一步调查表明,虽然显式 3D 定位稳定了深度敏感任务的推理,但不完美的重建扭曲了细粒度的空间关系并误导下游推理。
引言
空间智能根本上依赖于感知 - 动作循环,其中 agents 主动揭示潜在物理属性,而不是依赖被动感知。先前的方法通常假设被动神谕观察,这将评估限制在视觉识别而非具身能力。作者介绍了 ESI-BENCH,这是一个涵盖十个任务类别和 3,081 个实例的综合基准,以解决感知与行动之间的差距。该框架评估 agents 是否能够选择合适的能力并解决歧义,证明行动选择经常主导感知准确性。
数据集
数据集组成与来源
- 作者介绍了 ESI-BENCH 作为一个基准,包含 3,081 个任务实例,组织为 10 个类别和 29 个子类别。
- 数据源自 BEHAVIOR-1K 场景池,其中包括 51 个交互式 3D 场景和超过 9,000 个对象实例。
- 环境使用 OmniGibson 进行模拟,以确保准确的物理、光照和对象状态。
每个子集的关键细节
- 每个任务实例由场景、初始 agent 姿态、自然语言问题和真实答案定义。
- 动作空间涵盖移动、感知和操作,步骤预算上限为 30 步。
- 子类别解决特定的推理挑战,如材料透明度、液体体积、部分遮挡和镜面反射。
- 类别与核心知识系统对齐,包括对象表示、几何、数量和 agent 推理。
在模型中的使用
- 该数据集用作零样本测试的评估基准,而不是用于微调的训练集。
- 评估模型通过主动探索获取证据的能力,而不是依赖固定观察。
- 性能针对人类基线和被动观察设置进行测量,以量化主动感知的好处。
处理和元数据构建
- GPT-4o 在模拟之前基于场景图提出候选对象、放置、问题和轨迹。
- 物理模拟使对象稳定,自动检查验证稳定性和物理合理性。
- 人类标注员使用多数投票系统验证正确性、可回答性和非平凡性以解决分歧。
- 最终元数据存储在 JSON 文件中,包含场景详情、agent 姿态、验证标志和动作轨迹。
- 作者通过测试排除视觉观察的捷径基线来审计语言和对象类别偏差。
方法
作者利用主动探索框架,其中评估的多模态大语言模型 (MLLM) 通过离散动作空间控制具身 agent。在每个时间步,模型接收任务问题、当前自我中心观察、先前动作 - 观察历史和完整动作词汇。然后提示其选择恰好一个下一个动作。此过程创建一个反馈循环,其中选定的动作在 OmniGibson 模拟器中执行,产生下一个自我中心观察。从初始感知到终端答案的主动探索过程的顺序流在下图中说明。
为了指导此行为,系统在所有任务类别中使用标准化提示模板。提示指示 agent 主动探索场景以回答问题,强调仅应执行动作以收集证据。可用动作包括导航原语如 move_forward 和 turn_left,以及操作命令如 pick_up 和 put。模型需要输出下一步的原因和特定动作字符串。此循环持续直到模型发出终端答案或达到最大预算 Tmax=30 步。
关于执行,模型输出被解析为最近的有效动作字符串。如果输出无效或格式错误,系统会重新提示模型一次。如果响应仍然无效,则该步骤计为无效,agent 保持原位。对于操作动作,对象名称与可见标识符匹配。值得注意的是,失败的物理执行,例如尝试拾取无法到达的对象,作为模拟器失败执行,并包含在轨迹中以准确反映 agent 的行动选择行为。
对于认知映射等特定任务模块,作者采用程序生成。在连接性任务中,系统从可遍历地图中为每个房间选择一个可导航渲染点。它从这些点捕获八个均匀间隔的房间参考视图。问题生成涉及提取房间区域和采样可导航候选点。真实标签通过检查场景分割地图中两个房间之间是否存在有效的最短路径来确定。
该基准涵盖了广泛的能力,从物理结构和镜面反射到感知定位和认知映射。这些任务类别的分布在下方的饼图中可视化,强调感知定位和物理动力学等领域。
任务的完整分类在下方的网格中呈现,其中详细介绍了液体体积、空间分割和行动排序等特定子类别。每个子类别包括旨在测试特定具身智能能力的示例场景和问题。
实验
该研究评估了从被动观察到主动探索的四种范式下的模型,证明 agents 通过自发发现收集任务相关证据的涌现策略,显著优于被动对应方法。实验确定行动选择是主要瓶颈而非感知,同时也表明完美的 3D 定位改进了深度敏感任务,但不完美的重建主动扭曲空间关系。最后,人类比较揭示了元认知差距,模型以高置信度过早承诺,而不是寻求证伪观点或在矛盾下修正信念。
作者使用 2D VLMs、3D 增强 LLMs 和人类参与者在被动、主动和神谕范式下评估空间智能。结果表明,主动探索显著优于被动多视图输入,后者通常通过增加噪声降低性能。虽然完美的 3D 定位显著辅助空间推理,但不完美的 3D 重建可能比 2D 基线更有害。模型和人类之间仍存在显著差距,主要由模型无法选择信息丰富的行动以及倾向于在未寻求证伪证据的情况下过早承诺所驱动。主动探索相对于被动多视图基线产生显著增益,后者通常引入噪声而非信号。不完美 3D 重建降低了细粒度空间任务的性能,证明比标准 2D 基线更有害。人类在主动设置下的性能显著超过模型,因为更好的认识校准和信念修正策略。
作者通过测量视图多样性、对比视图率和信念修正率来操作化元认知差距。数据显示,人类 agents 在所有三个指标上优于主动模型,证明其 superior 证据收集和信念更新能力。人类 agents 表现出比模型 agents 显著更高的视图多样性。模型寻求对比视图的比率低于人类。人类在面对矛盾证据时更频繁地修正信念。
作者评估 GPT-4o 生成的任务是否通过比较主动探索下 AI 生成与人类撰写子集的模型准确性引入系统性难度偏差。结果表明,模型性能在两个任务源之间大致相似,分数仅有微小变化。这表明 GPT-4o 可以有效生成可扩展任务提案,而不会显著改变基准的难度级别。模型准确性在 AI 生成和人类撰写任务子集之间保持一致。任务源之间的性能差距极小,表明难度级别相当。GPT-4o 被验证为生成可扩展基准任务的可行方法。
下表评估了模型在仅文本基线、被动单视图观察和主动探索范式下的性能。主动探索在所有空间推理类别中始终产生最高准确性,显著优于被动观察。被动单视图结果通常超过仅文本基线,证明视觉输入的必要性,同时突出主动证据收集的优越功效。主动探索实现最高平均性能,大幅超越被动单视图观察。被动单视图观察优于仅文本基线,确认视觉定位的必要性。主动探索的性能增益在物理动力学和感知定位等不同类别中保持一致。
下表呈现了 ESI-BENCH 基准内十个任务类别的质量统计。它表明数据集构建良好,所有类别均具有高答案平衡和对象多样性,以确保稳健评估。所有类别的答案平衡始终很高,Metric Comparison 达到峰值。对象多样性保持在强劲水平,特别是在枚举感知和空间关系中。平均分数确认了基准在最小化偏差和确保视觉多样性方面的整体有效性。
作者评估了被动、主动和神谕范式下的空间智能,证明主动探索显著优于被动输入,同时不完美 3D 重建被证明比标准 2D 基线更有害。模型和人类之间仍存在显著差距,主要由模型无法像人类参与者那样有效收集证据或修正信念引起。最后,该研究验证了 GPT-4o 生成任务的可扩展性,并确认 ESI-BENCH 基准为稳健的空间推理评估提供了高多样性和答案平衡。