14 小时前
空间策略:基于空间感知建模与推理引导视觉-运动机器人操作
Yijun Liu, Yuwei Liu, Yuan Meng, Jieheng Zhang, Yuwei Zhou, Ye Li, et al

摘要
以视觉为中心的分层具身模型在长时程机器人控制任务中展现出强大的潜力。然而,现有方法普遍缺乏空间感知能力,限制了其在复杂环境中将视觉规划有效转化为可执行控制的能力。为解决这一问题,我们提出Spatial Policy(SP),一种通过显式空间建模与推理实现统一的空间感知视觉-运动机器人操作框架。具体而言,我们首先设计了一个空间条件驱动的具身视频生成模块,通过空间规划表实现空间引导的预测;随后,提出一种基于空间的行动预测模块,以协同方式推断可执行的动作;最后,引入一种空间推理反馈策略,通过双阶段重规划机制对空间规划表进行优化与修正。大量实验表明,SP显著优于现有最先进基线方法,在最佳基线基础上实现平均33.0%的性能提升。在11项多样化任务中,SP平均成功率达86.7%,大幅提升了具身模型在机器人控制应用中的实用性。代码与模型检查点已开源,详见此链接:https://url。