12 天前

通过部分解耦强化学习与向量化多样性，在一小时内训练真实场景下的局部路径规划器

Jinghao Xin, Jinwoo Kim, Zhi Li, Ning Li

摘要

深度强化学习（Deep Reinforcement Learning, DRL）在解决局部路径规划（Local Path Planning, LPP）问题方面已展现出显著成效。然而，由于DRL在训练效率和泛化能力方面的不足，其在真实场景中的应用仍受到极大限制。为缓解上述两大挑战，本文提出一种名为Color的新方法，该方法由一个Actor-Sharer-Learner（ASL）训练框架与面向移动机器人设计的仿真器Sparrow组成。具体而言，ASL框架旨在提升DRL算法的训练效率。其采用向量化数据采集（Vectorized Data Collection, VDC）模式，加速数据获取过程；通过多线程技术将数据采集与模型优化解耦，同时借助时间反馈机制（Time Feedback Mechanism, TFM）部分连接两个流程，有效避免数据的利用率不足或过度使用问题。与此同时，Sparrow仿真器采用基于二维网格的世界建模方式，简化运动学模型，并实现无转换的数据流设计，从而达成轻量化架构。该轻量化特性支持向量化多样性，能够在大量并行的向量化环境中部署多样化的仿真配置，显著增强所训练DRL算法的泛化能力。为验证所提方法在效率与泛化性能方面的优越性，本文开展了全面的实验评估，涵盖57个DRL基准环境、32个仿真LPP场景以及36个真实世界LPP任务。实验结果充分证明了Color方法的有效性。相关代码与演示视频已开源，可访问 https://github.com/XinJingHao/Color。