9日前

確率的環境における学習モデルを用いた計画

{David Silver, Thomas K Hubert, Sherjil Ozair, Julian Schrittwieser, Ioannis Antonoglou}
確率的環境における学習モデルを用いた計画
要約

モデルベース強化学習は高い成功を収めてきた。しかし、計画の過程でモデルを独立して学習する手法は、複雑な環境では問題を引き起こす。これまで最も効果的な手法は、価値同等のモデル学習と強力な木探索手法を組み合わせることであった。このアプローチの代表例として、チェスや囲碁をはじめとするボードゲームから視覚的に豊かな環境まで、離散的および連続的アクション空間、オンラインおよびオフラインの設定にわたり、幅広い分野で最先端の性能を達成したMuZeroが挙げられる。しかし、これまでのこのアプローチの実装は、決定論的モデルの使用に限定されてきた。これは、本質的に確率的である、部分観測可能な、あるいは有限のエージェントにとって確率的に見えるほど巨大かつ複雑な環境では、性能に制限をもたらす。本論文では、このアプローチを確率的モデルの学習と計画に拡張する。具体的には、後状態(afterstates)を組み込んだ確率的モデルを学習し、そのモデルを用いて確率的木探索を行う新しいアルゴリズム「Stochastic MuZero」を提案する。Stochastic MuZeroは、2048やバックギャモンを含む代表的な単エージェントおよびマルチエージェント環境において、既存の最先端技術と同等またはそれを上回る性能を達成した一方で、囲碁においては従来のMuZeroと同等の性能を維持した。

確率的環境における学習モデルを用いた計画 | 最新論文 | HyperAI超神経