Rekonzilierung räumlicher und zeitlicher Abstraktionen für die Zielrepräsentation

Die Zielrepräsentation beeinflusst die Leistung von hierarchischen Verstärkungslernverfahren (Hierarchical Reinforcement Learning, HRL), indem sie das komplexe Lernproblem in leichter handhabbare Teilprobleme zerlegt. Neuere Studien zeigen, dass Darstellungen, die zeitlich abstrakte Dynamiken der Umwelt bewahren, erfolgreich bei der Lösung anspruchsvoller Aufgaben sind und theoretische Garantien für Optimalität liefern. Diese Ansätze skaliert jedoch nicht gut auf Aufgaben, bei denen die Umwelt-Dynamiken an Komplexität zunehmen, d. h., wenn die zeitlich abstrakten Übergangsrelationen von einer größeren Anzahl von Variablen abhängen. Andererseits haben andere Ansätze versucht, räumliche Abstraktion einzusetzen, um diese Probleme zu überwinden. Ihre Grenzen liegen in der Skalierbarkeit auf hochdimensionale Umgebungen sowie in der Abhängigkeit von vorherigem Wissen.In diesem Paper stellen wir einen neuartigen dreischichtigen HRL-Algorithmus vor, der auf unterschiedlichen Hierarchieebenen sowohl eine räumliche als auch eine zeitliche Zielabstraktion einführt. Wir führen eine theoretische Analyse der Regret-Grenzen der gelernten Politiken durch. Die Evaluierung erfolgt auf komplexen kontinuierlichen Steuerungsaufgaben und zeigt die Wirksamkeit der von diesem Ansatz gelernten räumlichen und zeitlichen Abstraktionen. Den Open-Source-Code finden Sie unter https://github.com/cosynus-lix/STAR.