HyperAIHyperAI
vor 2 Monaten

Mehrziel-Deep-Reinforcement-Lernen mit PopArt

Matteo Hessel; Hubert Soyer; Lasse Espeholt; Wojciech Czarnecki; Simon Schmitt; Hado van Hasselt
Mehrziel-Deep-Reinforcement-Lernen mit PopArt
Abstract

Die Gemeinschaft des Verstärkungslernens hat große Fortschritte bei der Entwicklung von Algorithmen gemacht, die in der Lage sind, die menschliche Leistung bei spezifischen Aufgaben zu übertreffen. Diese Algorithmen werden jedoch in der Regel nur für eine Aufgabe nach der anderen trainiert, wobei jede neue Aufgabe das Training einer neuen Agenteninstanz erfordert. Dies bedeutet, dass der Lernalgorithmus allgemein ist, aber jede Lösung es nicht ist; jeder Agent kann nur die eine Aufgabe lösen, auf die er trainiert wurde. In dieser Arbeit untersuchen wir das Problem des Erlernens, nicht nur eine, sondern mehrere sequentielle Entscheidungsaufgaben gleichzeitig zu meistern. Ein allgemeines Problem beim Mehrfach-Aufgaben-Lernen besteht darin, einen Ausgleich zwischen den Anforderungen verschiedener Aufgaben zu finden, die um die begrenzten Ressourcen eines einzelnen Lernsystems konkurrieren. Viele Lernalgorithmen können durch bestimmte Aufgaben im Satz der zu lösenden Aufgaben abgelenkt werden. Solche Aufgaben erscheinen dem Lernprozess wegen der Dichte oder Größe der innerhalb der Aufgabe vergebenen Belohnungen wichtiger. Dies führt dazu, dass der Algorithmus sich auf diese auffälligen Aufgaben konzentriert und dadurch Allgemeingültigkeit einbüßt. Wir schlagen vor, den Beitrag jeder Aufgabe zu den Aktualisierungen des Agents automatisch anzupassen, sodass alle Aufgaben einen ähnlichen Einfluss auf die Lerndynamik haben. Dies führte zu einem Stand-der-Technik-Ergebnis beim Erlernen aller Spiele in einem Satz von 57 diversen Atari-Spielen. Erstaunlicherweise lernte unsere Methode eine einzelne trainierte Politik – mit einem einzigen Gewichtsset –, die überdurchschnittliche menschliche Leistung erreicht und sogar übertreffen konnte. Nach unserem Wissen war dies das erste Mal, dass ein einzelner Agent auf diesem Mehrfach-Aufgaben-Bereich eine übermenschliche Leistung erzielte. Der gleiche Ansatz zeigte auch Stand-der-Technik-Leistungen bei einem Satz von 30 Aufgaben in der 3D-Verstärkungslernplattform DeepMind Lab (DeepMind Lab).