Decision Transformer: Verstärkendes Lernen mittels Sequenzmodellierung

Wir stellen einen Rahmen vor, der die Verstärkungslernverfahren (Reinforcement Learning, RL) als Sequenzmodellierungsproblem abstrahiert. Dadurch können wir die Einfachheit und Skalierbarkeit der Transformer-Architektur sowie die damit verbundenen Fortschritte im Bereich der Sprachmodellierung, wie beispielsweise GPT-x und BERT, nutzen. Insbesondere stellen wir die Decision Transformer vor, eine Architektur, die das Problem des RL als bedingte Sequenzmodellierung formuliert. Im Gegensatz zu früheren Ansätzen des RL, die Wertfunktionen schätzen oder Policy-Gradienten berechnen, generiert die Decision Transformer einfach optimale Aktionen, indem sie einen kausal maskierten Transformer nutzt. Indem wir ein autoregressives Modell auf die gewünschte Rückkehr (Belohnung), vergangene Zustände und Aktionen bedingen, kann unser Decision Transformer zukünftige Aktionen erzeugen, die die gewünschte Rückkehr erreichen. Trotz seiner Einfachheit erreicht die Decision Transformer die Leistungsfähigkeit oder übertrifft die der besten modellfreien Offline-RL-Baselines auf Atari-, OpenAI Gym- und Key-to-Door-Aufgaben.