11日前

複雑なアクション空間における学習と計画

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver
複雑なアクション空間における学習と計画
要約

多くの重要な現実世界の問題において、行動空間は高次元的であり、連続的である、あるいはその両方であるため、可能なすべての行動を完全に列挙することは現実的ではない。その代わりに、方策評価および改善の目的のために、行動の小さな部分集合のみをサンプリングすることができる。本論文では、このようなサンプリングされた行動部分集合上で、原理的な観点から方策評価および改善を議論するための一般的な枠組みを提案する。このサンプルベースの方策反復フレームワークは、原則として、方策反復に基づく任意の強化学習アルゴリズムに適用可能である。具体的には、サンプリングされた行動を用いた計画によって、任意に複雑な行動空間において学習が可能なMuZeroアルゴリズムの拡張版として、Sampled MuZeroを提案する。本手法の有効性を、伝統的なボードゲームである囲碁および2つの連続的制御ベンチマーク領域であるDeepMind Control SuiteとReal-World RL Suiteにおいて実証した。

複雑なアクション空間における学習と計画 | 最新論文 | HyperAI超神経