17日前

学習可能な行動制御:サンプル効率的な行動選択によるAtari人間世界記録の更新

Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang, Jiangcheng Zhu, Hao Wang, Shu-Tao Xia
学習可能な行動制御:サンプル効率的な行動選択によるAtari人間世界記録の更新
要約

探索問題は、深層強化学習(RL)における主要な課題の一つである。近年の有望な研究では、異なる探索方策から得られる多様な行動をもつサンプルを収集する人口ベースの手法によりこの問題に取り組んでおり、行動制御のために適応的方策選択が採用されている。しかし、行動選択の空間は事前に定義された方策集団に大きく制限されており、その結果、行動の多様性も制限される。本論文では、この制約を克服するため、学習可能な行動制御(Learnable Behavioral Control, LBC)と呼ばれる汎用フレームワークを提案する。本手法は、a) すべての方策から構成されるハイブリッド行動マッピングを定式化することで、行動選択空間を大幅に拡大し、b) 行動選択を統一的かつ学習可能なプロセスとして構築する。LBCを分散型のオフポリシーActor-Critic手法に組み込み、バンディットベースのメタコントローラーにより行動マッピングの選択を最適化することで、行動制御を実現した。実験において、アーケード学習環境(Arcade Learning Environment)において10億フレームの学習で、平均人間正規化スコアが10077.52%に達し、24件のヒューマンワールドレコードを更新した。これにより、サンプル効率を低下させることなく、著しい最先端(SOTA)の性能を達成したことが示された。