Command Palette
Search for a command to run...
連続制御における深層強化学習のベンチマーク
連続制御における深層強化学習のベンチマーク
Duan Yan Chen Xi Houthooft Rein Schulman John Abbeel Pieter
概要
近年、深層学習を用いた特徴表現の学習と強化学習を統合する分野において、研究者は顕著な進展を遂げている。代表的な例として、原始的な画素データに基づいてアタリゲームをプレイするエージェントの学習や、原始的な感覚入力を利用して高度な操作スキルを習得するエージェントの開発が挙げられる。しかしながら、連続的制御分野における進展を定量的に評価するための共通のベンチマークが存在しないため、その進展を測ることが困難であった。本研究では、カートポールのスイングアップといった古典的タスク、3次元ヒューマノイドの歩行といった状態空間および行動空間の次元が極めて高いタスク、部分観測を伴うタスク、階層構造を持つタスクを含む、連続的制御タスクのベンチマークセットを提示する。本研究では、実装された複数の強化学習アルゴリズムを体系的に評価し、新たな知見を報告する。本ベンチマークおよび参照実装は、https://github.com/rllab/rllab にて公開されており、実験の再現性を促進し、他の研究者による採用を推進することを目的としている。