Benchmarking von Deep Reinforcement Learning für kontinuierliche Steuerung

Kürzlich haben Forscher erhebliche Fortschritte bei der Kombination von Erkenntnissen im Bereich des tiefen Lernens zur Extraktion von Merkmalsrepräsentationen mit Verstärkungslernen erzielt. Einige bemerkenswerte Beispiele sind die Ausbildung von Agenten, um Atari-Spiele auf Basis roher Pixel-Daten zu spielen, und das Erlernen fortgeschrittener Manipulationstechniken unter Verwendung roher sensorischer Eingaben. Dennoch war es schwierig, den Fortschritt im Bereich der kontinuierlichen Steuerung zu quantifizieren, aufgrund des Mangels an einem allgemein akzeptierten Benchmark.In dieser Arbeit stellen wir eine Benchmark-Suite kontinuierlicher Steuerungsaufgaben vor, die klassische Aufgaben wie das Schwingen eines Wagens mit Pendel (Cart-Pole Swing-Up), Aufgaben mit sehr hoher Zustands- und Aktiondimensionalität wie die 3D-Humanoidlokomotion, Aufgaben mit teilweisen Beobachtungen sowie Aufgaben mit hierarchischer Struktur umfasst. Wir berichten über neuartige Erkenntnisse, die auf der systematischen Auswertung einer Reihe implementierter Verstärkungslernalgorithmen basieren. Sowohl der Benchmark als auch die Referenzimplementierungen werden unter https://github.com/rllab/rllab veröffentlicht, um experimentelle Reproduzierbarkeit zu erleichtern und die Nutzung durch andere Forscher zu fördern.