RoboRefer:面向空间指代的机器人视觉-语言模型推理
Zhou, Enshen ; An, Jingkun ; Chi, Cheng ; Han, Yi ; Rong, Shanyu ; Zhang, Chi ; Wang, Pengwei ; Wang, Zhongyuan ; Huang, Tiejun ; Sheng, Lu ; Zhang, Shanghang
发布日期: 6/8/2025

摘要
空间指代是具身机器人与三维物理世界交互的基本能力。然而,即使借助强大的预训练视觉语言模型(VLMs),现有的方法仍然无法准确理解复杂的三维场景并动态推理出指令所指示的交互位置。为此,我们提出了一种名为RoboRefer的三维感知VLM,该模型通过监督微调(SFT)集成一个解耦且专门的深度编码器,从而实现精确的空间理解。此外,RoboRefer通过强化微调(RFT)推进了泛化的多步空间推理,其过程奖励函数针对空间指代任务进行了度量敏感的设计。为了支持SFT和RFT的训练,我们引入了RefSpatial数据集,这是一个包含2000万问答对(比先前增加两倍)的大规模数据集,涵盖了31种空间关系(而先前为15种),并支持复杂的推理过程(最多可达5步)。此外,我们还引入了RefSpatial-Bench基准测试集,这是一个具有挑战性的基准测试集,填补了在多步推理评估空间指代方面的空白。实验结果表明,经过SFT训练的RoboRefer在空间理解方面达到了最先进的水平,平均成功率为89.6%。经过RFT训练的RoboRefer进一步大幅超越了所有其他基线模型,在RefSpatial-Bench上的平均准确率甚至超过了Gemini-2.5-Pro 17.4%。值得注意的是,RoboRefer可以与各种控制策略结合,在杂乱的真实世界场景中执行长时域、动态任务,并适用于多种机器人(例如UR5、G1类人机器人)。