2ヶ月前
分散型優先経験再生
Dan Horgan; John Quan; David Budden; Gabriel Barth-Maron; Matteo Hessel; Hado van Hasselt; David Silver

要約
我々は、大規模な深層強化学習に適した分散アーキテクチャを提案します。このアーキテクチャにより、エージェントは従来よりも桁違いの量のデータから効果的に学習することが可能になります。アルゴリズムは行動と学習を分離しており、アクターは共有ニューラルネットワークに基づいて環境の個々のインスタンスと相互作用し、選択した行動によって得られた経験を共有経験再生メモリに蓄積します;一方、ラーナーは経験のサンプルを再生し、ニューラルネットワークを更新します。このアーキテクチャは優先度付き経験再生(Prioritized Experience Replay)に依存しており、アクターが生成する最も重要なデータにのみ焦点を当てるように設計されています。我々のアー�キテクチャは、アーケード学習環境において大幅に最先端技術を上回り、壁時間での訓練時間が短いにもかかわらずより優れた最終性能を達成しています。