Command Palette
Search for a command to run...
Stetige Steuerung mit tiefem Reinforcement Learning
Stetige Steuerung mit tiefem Reinforcement Learning
Timothy P. Lillicrap; Jonathan J. Hunt; Alexander Pritzel; Nicolas Heess; Tom Erez; Yuval Tassa; David Silver; Daan Wierstra
Zusammenfassung
Wir übertragen die Ideen, die dem Erfolg des Deep Q-Learnings zugrunde liegen, auf den kontinuierlichen Aktionenbereich. Wir stellen einen Schauspieler-Kritiker-, modellfreien Algorithmus vor, der auf dem deterministischen Politikgradienten basiert und in kontinuierlichen Aktionenräumen arbeiten kann. Mit demselben Lernalgorithmus, Netzwerkarchitektur und Hyperparametern löst unser Algorithmus robust mehr als 20 simulierte Physikaufgaben, darunter klassische Probleme wie das Pendel-Aufhängen am Wagen (Cartpole Swing-Up), feingliedrige Manipulation, Beinfortbewegung und Autofahren. Unser Algorithmus ist in der Lage, Politiken zu finden, deren Leistung mit denen vergleichbar ist, die von einem Planungsalgorithmus gefunden werden, der vollständigen Zugang zu den Dynamiken des Bereichs und dessen Ableitungen hat. Darüber hinaus zeigen wir, dass für viele der Aufgaben der Algorithmus Politiken von Anfang bis Ende lernen kann: direkt aus rohen Pixeleingaben.