Trainiere einen realweltbasierten lokalen Pfadplaner innerhalb einer Stunde mittels teilweise entkoppelter Verstärkungslernverfahren und vektorisierter Vielfalt

Deep Reinforcement Learning (DRL) hat sich bei der Lösung des Problems der lokalen Pfplanung (Local Path Planning, LPP) als wirksam erwiesen. Allerdings sind Anwendungen in der realen Welt aufgrund der geringen Trainingseffizienz und Generalisierungsfähigkeit von DRL stark eingeschränkt. Um diese beiden Probleme zu mildern, wird eine Lösung namens Color vorgestellt, die aus einem Actor-Sharer-Learner (ASL)-Trainingsframework und einem für mobile Roboter ausgelegten Simulator namens Sparrow besteht. Konkret zielt das ASL-Modell darauf ab, die Trainingseffizienz von DRL-Algorithmen zu verbessern. Es nutzt einen vektorisierten Datensammlungsmodus (Vectorized Data Collection, VDC), um die Datenerfassung zu beschleunigen, entkoppelt die Datensammlung von der Modelloptimierung durch Multithreading und verbindet die beiden Prozesse teilweise über einen Zeitrückkopplungsmechanismus (Time Feedback Mechanism, TFM), um eine Unter- oder Übernutzung von Daten zu vermeiden. Gleichzeitig ermöglicht der Sparrow-Simulator durch eine zweidimensionale Gitterwelt, vereinfachte Kinematik und datenflussfreie Konvertierung eine leichtgewichtige Architektur. Diese Leichtigkeit fördert eine vektorisierte Vielfalt, sodass über eine große Anzahl von vektorisierten Umgebungen unterschiedliche Simulationskonfigurationen realisiert werden können, was zu einer signifikanten Verbesserung der Generalisierungsfähigkeit des trainierten DRL-Algorithmus führt. Um die Überlegenheit unseres Ansatzes hinsichtlich Effizienz und Generalisierung zu bestätigen, wurden umfassende Experimente durchgeführt, die 57 DRL-Benchmark-Umgebungen, 32 simuliert und 36 reale LPP-Szenarien umfassten. Der Quellcode und das Video dieses Artikels sind unter https://github.com/XinJingHao/Color verfügbar.