11日前

ディシジョン・トランスフォーマー:シーケンスモデリングによる強化学習

Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
ディシジョン・トランスフォーマー:シーケンスモデリングによる強化学習
要約

我々は、強化学習(Reinforcement Learning: RL)をシーケンスモデリング問題として抽象化するフレームワークを提案する。これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、ならびにGPT-xやBERTといった言語モデリング分野における最近の進展を活用できる。特に、強化学習の問題を条件付きシーケンスモデリングとして定式化する「Decision Transformer」を提示する。従来の価値関数のフィッティングや方策勾配の計算に依拠するアプローチとは異なり、Decision Transformerは因果的にマスクされたTransformerを用いて、最適な行動を直接出力する。目的となる報酬(リターン)および過去の状態と行動を条件として与えることで、自己回帰モデルとして構築された本モデルは、所定のリターンを達成する未来の行動を生成することができる。この構造の単純さにもかかわらず、Atari、OpenAI Gym、Key-to-Doorタスクにおいて、最先端のモデルフリーなオフライン強化学習ベースラインと同等、あるいはそれを上回る性能を達成している。

ディシジョン・トランスフォーマー:シーケンスモデリングによる強化学習 | 最新論文 | HyperAI超神経