2ヶ月前
連続制御における深層強化学習のベンチマーキング
Duan, Yan ; Chen, Xi ; Houthooft, Rein ; Schulman, John ; Abbeel, Pieter

要約
最近、研究者たちは深層学習による特徴表現の学習と強化学習を組み合わせる分野で重要な進展を遂げています。注目すべき例としては、原始ピクセルデータに基づいてAtariゲームをプレイするエージェントの訓練や、原始センサ入力を用いて高度な操作技能を獲得するエージェントの開発が挙げられます。しかし、連続制御領域における進展を定量的に評価することは、一般的に採用されているベンチマークの欠如により困難でした。本研究では、カート・ポール振り上げなどの古典的な課題、3次元ヒューマノイド移動のような非常に高い状態次元と行動次元を持つ課題、部分観測のある課題、階層構造のある課題などを含む連続制御タスクのベンチマークスイートを提示します。私たちは実装された強化学習アルゴリズムの範囲に対する系統的な評価に基づく新たな知見を報告します。このベンチマークと参考実装は、実験の再現性を促進し、他の研究者による採用を奨励するために https://github.com/rllab/rllab で公開されています。