
摘要
我们将扩散策略(diffusion policies)与三维场景表示相结合,用于机器人操作任务。扩散策略利用条件扩散模型,学习在机器人及环境状态条件下动作的分布,近期已被证明在性能上超越了确定性策略以及其它基于状态的行动分布学习方法。而三维机器人策略则通过单视角或多视角摄像头结合感知到的深度信息,聚合生成三维场景特征表示,相较于二维方法,在不同摄像头视角下展现出更强的泛化能力。本文统一了上述两条研究路径,提出了一种名为“3D Diffuser Actor”的神经策略架构。该架构在接收到语言指令后,构建视觉场景的三维表示,并基于此表示迭代地对机器人末端执行器的三维旋转与平移进行去噪处理。在每一次去噪迭代中,模型将末端执行器的姿态估计表示为三维场景中的“视觉令牌”(scene tokens),并通过引入三维相对注意力机制,对这些令牌与其他三维视觉及语言令牌进行特征编码,进而预测每个令牌对应的三维平移与旋转误差。在RLBench基准测试中,3D Diffuser Actor在多视角设置下相较当前最先进方法实现了16.3%的绝对性能提升,在单视角设置下也实现了13.1%的绝对增益,创下新的最先进水平。在CALVIN基准测试中,该模型在零样本未见场景泛化设置下,成功执行的任务数量比当前最先进方法多出0.2项,实现了7%的相对性能提升。此外,该方法在真实世界中仅需少量示范即可有效运行。我们对模型的架构设计进行了消融实验,包括三维场景特征化方式与三维相对注意力机制等关键组件,结果表明这些设计均有助于提升模型的泛化能力。实验结果表明,三维场景表示与强大的生成建模能力,是实现高效从示范中学习机器人技能的关键所在。