2ヶ月前
マルチパス Q-ネットワーク:パラメータ化されたアクション空間を持つ深層強化学習のための
Craig J. Bester; Steven D. James; George D. Konidaris

要約
強化学習におけるパラメータ化された行動は、離散的な行動と連続的な行動パラメータから構成されています。これにより、高レベルの行動と柔軟な制御を組み合わせる必要がある複雑な領域を解決するための枠組みが提供されます。最近のP-DQNアルゴリズムは、このような行動空間での学習を深層Qネットワークに拡張しています。しかし、このアルゴリズムはすべての行動パラメータを単一の結合入力として扱うため、その理論的基礎が無効になります。私たちはこのアプローチの問題点を分析し、それらに対処する新しい手法であるマルチパス深層Qネットワーク(MP-DQN)を提案します。実験結果から、MP-DQNはPlatform、Robot Soccer Goal、Half Field Offenseの各領域においてデータ効率と収束した方策性能においてP-DQNおよび他の従来のアルゴリズムを大幅に上回ることが示されました。