15 天前

决策变换器:通过序列建模实现强化学习

Lili Chen, Kevin Lu, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas, Igor Mordatch
决策变换器:通过序列建模实现强化学习
摘要

我们提出一种将强化学习(Reinforcement Learning, RL)抽象为序列建模问题的框架。这一方法使我们能够借鉴Transformer架构的简洁性与可扩展性,以及语言建模领域(如GPT-x和BERT)所取得的诸多进展。具体而言,我们提出了决策Transformer(Decision Transformer),该架构将强化学习问题建模为条件序列生成问题。与以往通过拟合价值函数或计算策略梯度的强化学习方法不同,决策Transformer仅通过一个因果掩码(causally masked)的Transformer结构,直接输出最优动作。通过将自回归模型以期望回报(奖励)目标、历史状态和动作作为条件,该模型能够生成能够实现预期回报的未来动作序列。尽管结构简单,决策Transformer在Atari、OpenAI Gym以及Key-to-Door任务上,性能达到或超越了当前最先进的无模型离线强化学习基准方法。

决策变换器:通过序列建模实现强化学习 | 最新论文 | HyperAI超神经