Meta-World: Eine Benchmark und Bewertung für Multi-Task- und Meta-Reinforcement-Learning

Meta-Verstärkungslernalgorithmen können Robotern ermöglichen, neue Fähigkeiten erheblich schneller zu erwerben, indem sie vorherige Erfahrungen nutzen, um zu lernen, wie man lernt. Doch der größte Teil der aktuellen Forschung im Bereich Meta-Verstärkungslernen konzentriert sich auf sehr enge Aufgabendistributionen. Ein typisches Beispiel hierfür ist ein gängiger Benchmark für Meta-Verstärkungslernen, bei dem verschiedene Laufgeschwindigkeiten eines simulierten Roboters als unterschiedliche Aufgaben betrachtet werden. Wenn Policy-Modelle auf solch engen Aufgabendistributionen meta-gelernt werden, können sie unmöglich generalisieren, um neue, völlig unterschiedliche Aufgaben schneller zu erlernen. Folglich müssen diese Methoden dann auch an Aufgabendistributionen evaluiert werden, die ausreichend breit sind, um eine Generalisierung auf neue Verhaltensweisen zu ermöglichen, wenn das Ziel darin besteht, den schnellen Erwerb völlig neuer Verhaltensweisen zu unterstützen. In diesem Paper stellen wir einen quelloffenen simulierten Benchmark für Meta-Verstärkungslernen und Mehraufgabenlernen vor, der aus 50 unterschiedlichen Aufgaben im Bereich robotischer Manipulation besteht. Unser Ziel ist es, die Entwicklung von Algorithmen zu ermöglichen, die generalisieren und so den schnellen Erwerb völlig neuer, ausgelassener Aufgaben beschleunigen. Wir evaluieren sieben state-of-the-art-Algorithmen für Meta-Verstärkungslernen und Mehraufgabenlernen an diesen Aufgaben. Überraschenderweise gelingt es zwar jedem einzelnen Task und dessen Variationen (z. B. mit unterschiedlichen Objektpositionen) mit annehmbarer Erfolgsquote, jedoch scheitern diese Algorithmen daran, gleichzeitig mehrere Aufgaben zu lernen – selbst bei lediglich zehn unterschiedlichen Trainingsaufgaben. Unsere Analyse und die veröffentlichten Simulationsumgebungen legen den Grundstein für zukünftige Forschung im Bereich Mehraufgabenlernen und Meta-Lernen, die echte Generalisierung ermöglichen und somit das volle Potenzial dieser Methoden erschließen.