HyperAI超神经

NavDP:利用特权信息引导学习从模拟到现实的导航扩散策略

Wenzhe Cai, Jiaqi Peng, Yuqiang Yang, Yujian Zhang, Meng Wei, Hanqing Wang, Yilun Chen, Tai Wang, Jiangmiao Pang
发布日期: 5/14/2025
NavDP:利用特权信息引导学习从模拟到现实的导航扩散策略
摘要

在动态开放世界环境中学习导航是机器人的一项重要而具有挑战性的技能。大多数先前的方法依赖于精确的定位和地图构建,或者从昂贵的真实世界演示中学习。本文提出了一种端到端框架——导航扩散策略(NavDP),该框架仅在仿真环境中进行训练,能够在不同的真实世界环境中实现零样本迁移至不同形态的机器人。NavDP网络的关键组成部分是基于扩散的轨迹生成和用于轨迹选择的评估函数,这些功能仅依赖于共享策略变换器编码的局部观察令牌。利用仿真环境中全局环境的特权信息,我们生成了高质量的演示数据以训练扩散策略,并通过对比负样本制定了评估函数的目标值。我们的演示生成方法每天可以生成约2,500条轨迹/GPU,比真实世界数据收集效率高20倍,并生成了一个包含1244个场景、总长363.2公里的大规模导航数据集。使用该仿真数据集训练后,NavDP在多种室内和室外环境中实现了四足、轮式和人形机器人的最先进性能,并且表现出持续出色的泛化能力。此外,我们初步尝试使用高斯点绘(Gaussian Splatting)进行域内真实到仿真的微调,以进一步弥合仿真与现实之间的差距。实验表明,添加这种真实到仿真的数据可以在不损害其泛化能力的情况下将成功率提高30%。