2ヶ月前

リアクター：強化学習用の高速でサンプル効率の高いアクターキリティカルエージェント

Audrunas Gruslys; Will Dabney; Mohammad Gheshlaghi Azar; Bilal Piot; Marc Bellemare; Remi Munos

要約

本研究では、Reactorと呼ばれる新しいエージェントアーキテクチャを提案します。このアーキテクチャは、複数のアルゴリズムおよびアーキテクチャの貢献を組み合わせることで、Prioritized Dueling DQN（Wangら, 2016）やCategorical DQN（Bellemareら, 2017）よりも高いサンプル効率性を実現するとともに、A3C（Mnihら, 2016）よりも優れた実行時性能を提供します。まず、我々の最初の貢献は、Distributional Retraceと呼ばれる新しい方策評価アルゴリズムです。このアルゴリズムは、分布型強化学習設定において多段階オフポリシー更新を可能にします。同様の手法を使用することで、期待値評価のために設計されたいくつかのクラスの多段階方策評価アルゴリズムを分布型に変換することができます。次に、\b{eta}-leave-one-out 方策勾配アルゴリズムを導入します。このアルゴリズムは、アクション値をベースラインとして使用することで分散とバイアス間のトレードオフを改善します。最後に、時間的局所性を利用したシーケンス用の新しい優先再生アルゴリズムを提案します。これは隣接する観測値の時間的局所性を利用してより効率的な再生優先度を達成します。Atari 2600ベンチマークを使用して示すように、これらの各革新がサンプル効率性と最終的なエージェント性能に寄与することを確認しました。最後に、Reactorが2億フレームと1日未満の学習後に最先端の性能に到達することを示しています。