HyperAIHyperAI
vor 11 Tagen

Glatte Exploration für die roboterbasierte Verstärkungslernverfahren

Antonin Raffin, Jens Kober, Freek Stulp
Glatte Exploration für die roboterbasierte Verstärkungslernverfahren
Abstract

Reinforcement Learning (RL) ermöglicht es Robotern, Fähigkeiten durch Interaktionen mit der realen Welt zu erlernen. In der Praxis führt die unstrukturierte, schrittweise Exploration, wie sie in Deep RL häufig eingesetzt wird – und in Simulationen oft sehr erfolgreich ist – bei realen Robotern zu zuckenden Bewegungsmustern. Die Folgen dieses instabilen Verhaltens sind eine schlechte Exploration oder sogar Schäden am Roboter. Wir begegnen diesen Herausforderungen, indem wir den state-dependent exploration (SDE)-Ansatz an aktuelle Deep-RL-Algorithmen anpassen. Um diese Anpassung zu ermöglichen, schlagen wir zwei Erweiterungen des ursprünglichen SDE vor: die Verwendung allgemeinerer Merkmale und die periodische Neubestimmung der Rauschproben. Dies führt zu einer neuen Explorationsmethode, der generalisierten state-dependent exploration (gSDE). Wir evaluieren gSDE sowohl in Simulationen an kontinuierlichen Steuerungsaufgaben in PyBullet als auch direkt auf drei verschiedenen realen Robotern: einem seilgetriebenen elastischen Roboter, einem Vierbeiner und einem RC-Auto. Der Rauschprobenintervall in gSDE erlaubt einen Kompromiss zwischen Leistungsfähigkeit und Bewegungsglättung, wodurch das Training direkt auf den realen Robotern möglich ist, ohne an Leistung zu verlieren. Der Quellcode ist unter https://github.com/DLR-RM/stable-baselines3 verfügbar.

Glatte Exploration für die roboterbasierte Verstärkungslernverfahren | Neueste Forschungsarbeiten | HyperAI