HyperAIHyperAI

Command Palette

Search for a command to run...

Decision Transformer: Verstärkendes Lernen mittels Sequenzmodellierung

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

Zusammenfassung

Wir stellen einen Rahmen vor, der die Verstärkungslernverfahren (Reinforcement Learning, RL) als Sequenzmodellierungsproblem abstrahiert. Dadurch können wir die Einfachheit und Skalierbarkeit der Transformer-Architektur sowie die damit verbundenen Fortschritte im Bereich der Sprachmodellierung, wie beispielsweise GPT-x und BERT, nutzen. Insbesondere stellen wir die Decision Transformer vor, eine Architektur, die das Problem des RL als bedingte Sequenzmodellierung formuliert. Im Gegensatz zu früheren Ansätzen des RL, die Wertfunktionen schätzen oder Policy-Gradienten berechnen, generiert die Decision Transformer einfach optimale Aktionen, indem sie einen kausal maskierten Transformer nutzt. Indem wir ein autoregressives Modell auf die gewünschte Rückkehr (Belohnung), vergangene Zustände und Aktionen bedingen, kann unser Decision Transformer zukünftige Aktionen erzeugen, die die gewünschte Rückkehr erreichen. Trotz seiner Einfachheit erreicht die Decision Transformer die Leistungsfähigkeit oder übertrifft die der besten modellfreien Offline-RL-Baselines auf Atari-, OpenAI Gym- und Key-to-Door-Aufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp