12 天前

通过部分解耦强化学习与向量化多样性,在一小时内训练真实场景下的局部路径规划器

Jinghao Xin, Jinwoo Kim, Zhi Li, Ning Li
通过部分解耦强化学习与向量化多样性,在一小时内训练真实场景下的局部路径规划器
摘要

深度强化学习(Deep Reinforcement Learning, DRL)在解决局部路径规划(Local Path Planning, LPP)问题方面已展现出显著成效。然而,由于DRL在训练效率和泛化能力方面的不足,其在真实场景中的应用仍受到极大限制。为缓解上述两大挑战,本文提出一种名为Color的新方法,该方法由一个Actor-Sharer-Learner(ASL)训练框架与面向移动机器人设计的仿真器Sparrow组成。具体而言,ASL框架旨在提升DRL算法的训练效率。其采用向量化数据采集(Vectorized Data Collection, VDC)模式,加速数据获取过程;通过多线程技术将数据采集与模型优化解耦,同时借助时间反馈机制(Time Feedback Mechanism, TFM)部分连接两个流程,有效避免数据的利用率不足或过度使用问题。与此同时,Sparrow仿真器采用基于二维网格的世界建模方式,简化运动学模型,并实现无转换的数据流设计,从而达成轻量化架构。该轻量化特性支持向量化多样性,能够在大量并行的向量化环境中部署多样化的仿真配置,显著增强所训练DRL算法的泛化能力。为验证所提方法在效率与泛化性能方面的优越性,本文开展了全面的实验评估,涵盖57个DRL基准环境、32个仿真LPP场景以及36个真实世界LPP任务。实验结果充分证明了Color方法的有效性。相关代码与演示视频已开源,可访问 https://github.com/XinJingHao/Color。