6 个月前

摘要

模仿学习为教授机器人灵巧操作技能提供了一种高效途径；然而，要稳健且可泛化的学习复杂技能，通常需要大量人类示范数据。为应对这一挑战，我们提出了一种新型视觉模仿学习方法——3D扩散策略（3D Diffusion Policy, DP3），该方法将三维视觉表征的强大能力融入扩散策略（diffusion policies）——一类条件动作生成模型中。DP3的核心设计在于利用一种紧凑的三维视觉表征，该表征通过高效的点云编码器从稀疏点云中提取。在包含72个仿真任务的实验中，DP3仅需每项任务10次示范即成功完成绝大多数任务，并相较基线方法实现了24.2%的相对性能提升。在4个真实机器人任务中，DP3仅需每项任务40次示范，便展现出精确控制能力，成功率高达85%，并在空间、视角、外观及实例等多个方面表现出优异的泛化性能。有趣的是，在真实机器人实验中，DP3极少违反安全约束，而基线方法则频繁出现安全问题，往往需要人工干预。我们的全面评估凸显了三维视觉表征在真实世界机器人学习中的关键作用。相关视频、代码与数据已公开，可访问 https://3d-diffusion-policy.github.io。

源 PDF