HyperAIHyperAI

Command Palette

Search for a command to run...

ディシジョン・トランスフォーマー:シーケンスモデリングによる強化学習

Lili Chen Kevin Lu Aravind Rajeswaran Kimin Lee Aditya Grover Michael Laskin Pieter Abbeel Aravind Srinivas Igor Mordatch

概要

我々は、強化学習(Reinforcement Learning: RL)をシーケンスモデリング問題として抽象化するフレームワークを提案する。これにより、Transformerアーキテクチャのシンプルさとスケーラビリティ、ならびにGPT-xやBERTといった言語モデリング分野における最近の進展を活用できる。特に、強化学習の問題を条件付きシーケンスモデリングとして定式化する「Decision Transformer」を提示する。従来の価値関数のフィッティングや方策勾配の計算に依拠するアプローチとは異なり、Decision Transformerは因果的にマスクされたTransformerを用いて、最適な行動を直接出力する。目的となる報酬(リターン)および過去の状態と行動を条件として与えることで、自己回帰モデルとして構築された本モデルは、所定のリターンを達成する未来の行動を生成することができる。この構造の単純さにもかかわらず、Atari、OpenAI Gym、Key-to-Doorタスクにおいて、最先端のモデルフリーなオフライン強化学習ベースラインと同等、あるいはそれを上回る性能を達成している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ディシジョン・トランスフォーマー:シーケンスモデリングによる強化学習 | 記事 | HyperAI超神経