12日前
部分的に分離された強化学習とベクトル化された多様性を活用した1時間以内の現実世界局所経路計画器の訓練
Jinghao Xin, Jinwoo Kim, Zhi Li, Ning Li

要約
深層強化学習(DRL)は、局所経路計画(LPP)問題の解決において有効性を示している。しかし、DRLの学習効率および汎化能力に課題があるため、実世界への応用は極めて限定的である。これらの課題を緩和するため、本研究では「Color」と呼ばれる手法を提案する。この手法は、Actor-Sharer-Learner(ASL)学習フレームワークと、モバイルロボット向けに設計されたシミュレータ「Sparrow」から構成される。具体的には、ASLフレームワークはDRLアルゴリズムの学習効率を向上させることを目的としており、ベクトル化されたデータ収集(VDC)モードを採用することでデータ収集を高速化し、マルチスレッドによるデータ収集とモデル最適化の分離を実現する。さらに、時間フィードバック機構(TFM)を活用して両プロセスの一部を結合することで、データの未利用または過剰利用を回避する。一方、Sparrowシミュレータは2次元グリッドベースの世界モデル、簡略化された運動学モデル、および変換不要なデータフローを採用し、軽量な設計を実現している。この軽量性により、ベクトル化された環境における多様性を実現でき、多数のベクトル化環境コピーを用いた多様なシミュレーション設定が可能となり、訓練中のDRLアルゴリズムの汎化能力が顕著に向上する。本手法の効率性および汎化性能の優位性を検証するため、57のDRLベンチマーク環境、32のシミュレートされたLPPシナリオ、および36の実環境LPPシナリオを含む包括的な実験を実施した。本論文のコードおよび動画は、https://github.com/XinJingHao/Color にて公開されている。