13日前

Agent57:アタリ人間ベンチマークを上回る

Adrià Puigdomènech Badia, Bilal Piot, Steven Kapturowski, Pablo Sprechmann, Alex Vitvitskyi, Daniel Guo, Charles Blundell
Agent57:アタリ人間ベンチマークを上回る
要約

過去10年間、アタリゲームは強化学習(RL)分野における長年にわたり用いられてきたベンチマークとしての役割を果たしてきた。このベンチマークは、RLアルゴリズムの汎用的実力(一般能力)を評価することを目的として提案された。これまでの研究では、多数のゲームで優れた成績を収めることで平均性能が高く評価されてきたが、特に困難ないくつかのゲームでは著しく劣る結果にとどまっていた。本研究では、57種類すべてのアタリゲームにおいて、標準的な人間のパフォーマンスを上回る初のディープRLエージェント「Agent57」を提案する。この成果を達成するため、極めて探索的から完全に利用的まで、多様な方策(ポリシー)をパラメータ化するニューラルネットワークを学習する。さらに、学習プロセス全体を通じてどの方策を優先すべきかを動的に選択する機構を提案する。また、より一貫性があり安定した学習を可能にする新しいアーキテクチャのパラメータ化手法を導入している。