HyperAIHyperAI
vor 11 Tagen

Decision Transformer: Verstärkendes Lernen mittels Sequenzmodellierung

Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
Decision Transformer: Verstärkendes Lernen mittels Sequenzmodellierung
Abstract

Wir stellen einen Rahmen vor, der die Verstärkungslernverfahren (Reinforcement Learning, RL) als Sequenzmodellierungsproblem abstrahiert. Dadurch können wir die Einfachheit und Skalierbarkeit der Transformer-Architektur sowie die damit verbundenen Fortschritte im Bereich der Sprachmodellierung, wie beispielsweise GPT-x und BERT, nutzen. Insbesondere stellen wir die Decision Transformer vor, eine Architektur, die das Problem des RL als bedingte Sequenzmodellierung formuliert. Im Gegensatz zu früheren Ansätzen des RL, die Wertfunktionen schätzen oder Policy-Gradienten berechnen, generiert die Decision Transformer einfach optimale Aktionen, indem sie einen kausal maskierten Transformer nutzt. Indem wir ein autoregressives Modell auf die gewünschte Rückkehr (Belohnung), vergangene Zustände und Aktionen bedingen, kann unser Decision Transformer zukünftige Aktionen erzeugen, die die gewünschte Rückkehr erreichen. Trotz seiner Einfachheit erreicht die Decision Transformer die Leistungsfähigkeit oder übertrifft die der besten modellfreien Offline-RL-Baselines auf Atari-, OpenAI Gym- und Key-to-Door-Aufgaben.

Decision Transformer: Verstärkendes Lernen mittels Sequenzmodellierung | Neueste Forschungsarbeiten | HyperAI