Vorteilsgewichtete Regression: Einfach und skalierbarer Verfahrensansatz für politikunabhängiges Verstärkendes Lernen

In diesem Artikel zielen wir darauf ab, einen einfachen und skalierbaren Verstärkungslernalgorithmus zu entwickeln, der standardisierte überwachte Lernmethoden als Unterprogramme nutzt. Unser Ziel ist ein Algorithmus, der ausschließlich einfache und konvergente Maximum-Likelihood-Verlustfunktionen verwendet und gleichzeitig die Möglichkeit bietet, off-policy-Daten zu nutzen. Unser vorgeschlagener Ansatz, den wir Vorteilsgewichtete Regression (Advantage-Weighted Regression, AWR) nennen, besteht aus zwei standardisierten Schritten des überwachten Lernens: einem, bei dem auf Zielwerte für eine Wertefunktion regressiert wird, und einem zweiten, bei dem auf gewichtete Zielaktionen für die Politik regressiert wird. Die Methode ist einfach und allgemein gültig, kann sowohl kontinuierliche als auch diskrete Aktionen verarbeiten und lässt sich in nur wenigen Codezeilen auf Basis etablierter überwachter Lernmethoden implementieren. Wir geben eine theoretische Motivation für AWR an und analysieren dessen Eigenschaften bei der Verwendung von off-policy-Daten aus einem Erfahrungsspeicher (experience replay). Wir evaluieren AWR an einer Reihe standardisierter Benchmark-Aufgaben aus dem OpenAI Gym und zeigen, dass sie eine wettbewerbsfähige Leistung im Vergleich zu mehreren etablierten State-of-the-Art-Verstärkungslernalgorithmen erzielt. AWR ist zudem in der Lage, effektivere Politiken zu erlernen als die meisten anderen off-policy-Algorithmen, wenn nur statische Datensätze ohne zusätzliche Interaktionen mit der Umgebung zur Verfügung stehen. Darüber hinaus demonstrieren wir die Anwendung unseres Algorithmus auf anspruchsvolle Aufgaben im Bereich der kontinuierlichen Steuerung mit hochkomplexen simulierten Charakteren.