HyperAIHyperAI

Command Palette

Search for a command to run...

SpatialClaw:面向智能体空间推理的动作接口重新思考

摘要

空间推理,即确定物体位置、相互关系及其在三维空间中运动方式的能力,仍是视觉-语言模型(VLMs)面临的一项基础性挑战。工具增强型 agent 试图通过为视觉-语言模型(VLMs)集成专业感知模块来应对这一挑战,然而其有效性受限于调用这些工具的动作接口。在本研究中,我们探讨了该接口的设计如何影响 agent 进行开放式空间推理的能力。现有的空间 agent 要么采用单次代码执行机制,即在观察到任何中间结果之前便锁定完整的分析策略;要么依赖结构化工具调用接口,这通常缺乏自由组合操作或针对特定任务定制分析方案的灵活性。这两种设计在为开放式、复杂的三维/四维空间推理提供灵活性方面均存在局限。为此,我们提出了 SpatialClaw,这是一种无需训练的用于空间推理的框架,该框架采用代码作为动作接口。SpatialClaw 维护一个状态化的 Python 内核,其中预加载了输入帧以及一套感知与几何基础原语。该框架允许由 VLM 驱动的 agent 基于所有历史输出,在每一步编写一个可执行代码单元格,从而使 agent 能够灵活地组合与处理感知结果,并根据中间文本与视觉观测结果以及各问题的具体需求动态调整其分析策略。在涵盖广泛静态与动态三维/四维空间推理任务的20项空间推理基准测试中,SpatialClaw 取得了59.9%的平均准确率,较近期同类 spatial agent 提升了11.2个百分点。该方法在来自两个模型家族的六种 VLM 骨干网络上均实现了稳定提升,且无需针对特定基准或模型进行任何适配。

一句话总结

本研究介绍了 SpatialClaw,这是一个无需训练的框架,采用代码作为灵活的动作接口,克服了单次执行和结构化工具调用的僵化局限,使视觉语言模型能够自由组合感知操作,以进行开放式的 3D 和 4D 空间推理。

核心贡献

  • 本文介绍了 SpatialClaw,这是一种免训练框架,使用可执行的 Python 代码替代僵化的工具菜单,作为开放式 3D 和 4D 空间推理的动态动作接口。
  • 该方法提供了与替代动作接口的对照比较,并辅以执行轨迹级分析,从而明确分离出导致性能提升的具体空间推理模式。
  • 在多个空间推理基准测试中采用统一的评分协议进行评估,该方法证明,无参数代码执行可在无需微调或额外训练数据的情况下提升视觉语言模型的性能。

引言

视觉语言模型在通用感知方面已取得显著进展,但空间推理仍是机器人技术、具身智能和辅助系统应用中的持续瓶颈。现有方法通常依赖高昂的微调成本或僵化的工具增强架构,这些架构将模型锁定在固定接口中,要求在评估中间输出前确定完整程序,或缺乏逐步检查感知结果的能力。为突破这些限制,作者提出了 SpatialClaw,这是一种免训练框架,为现有的视觉语言模型配备了代码动作接口。该系统按需生成可执行的 Python 脚本,动态组合专用感知工具,支持对中间结果进行逐轮验证,并在不增加参数或额外训练数据的情况下显著提升空间推理能力。

数据集

  • 数据集构成与来源: 作者基于一个视频序列数据集,其中每个样本均包含一组 PIL 图像列表及对应的文本对象描述。
  • 关键子集细节: 主要集合侧重于对象存在性验证。标注信息采用 PerFrameMask 结构进行组织,该结构记录帧索引、对象标签、总帧数及对象数量,支持通过绝对帧位置进行直接索引。
  • 数据使用与处理: 作者使用该数据集训练了一个模型,用于评估对象存在性、统计实例数量并生成描述。系统接收图像列表与对象名称作为输入,随后返回包含存在性标志、各图像实例数量及简短文本摘要的字典。
  • 元数据构建与处理细节: 元数据通过 PerFrameMask 对象进行管理,该对象提供提取 2D 布尔分割掩码、从重建点云计算三维世界质心中位数以及检索掩码三维点数组的功能。该流水线还包含一个可视化实用工具,用于叠加显示结果以支持逐帧验证。

实验

在涵盖单图像、多视角和视频领域的二十个空间推理基准测试中,SpatialClaw 使用六种不同的开源视觉语言模型与多个基线方法进行了对比测试。实验验证了持续性的基于代码的动作接口始终优于结构化工具调用和单次执行,尤其是在需要跨帧和跨视角进行迭代几何计算的任务中。定性分析表明,agent 会自发地根据问题语义调整工具使用策略,且性能提升主要源于灵活的代码组合,而非预定义的工具函数或模型规模。最终,本研究得出结论:设计具备高表达力且支持修改的动作接口,是推动免训练空间推理 agent 发展的极具影响力且可泛化的策略。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供