HyperAIHyperAI

Command Palette

Search for a command to run...

確率的環境における学習モデルを用いた計画

David Silver Thomas K Hubert Sherjil Ozair Julian Schrittwieser Ioannis Antonoglou

概要

モデルベース強化学習は高い成功を収めてきた。しかし、計画の過程でモデルを独立して学習する手法は、複雑な環境では問題を引き起こす。これまで最も効果的な手法は、価値同等のモデル学習と強力な木探索手法を組み合わせることであった。このアプローチの代表例として、チェスや囲碁をはじめとするボードゲームから視覚的に豊かな環境まで、離散的および連続的アクション空間、オンラインおよびオフラインの設定にわたり、幅広い分野で最先端の性能を達成したMuZeroが挙げられる。しかし、これまでのこのアプローチの実装は、決定論的モデルの使用に限定されてきた。これは、本質的に確率的である、部分観測可能な、あるいは有限のエージェントにとって確率的に見えるほど巨大かつ複雑な環境では、性能に制限をもたらす。本論文では、このアプローチを確率的モデルの学習と計画に拡張する。具体的には、後状態(afterstates)を組み込んだ確率的モデルを学習し、そのモデルを用いて確率的木探索を行う新しいアルゴリズム「Stochastic MuZero」を提案する。Stochastic MuZeroは、2048やバックギャモンを含む代表的な単エージェントおよびマルチエージェント環境において、既存の最先端技術と同等またはそれを上回る性能を達成した一方で、囲碁においては従来のMuZeroと同等の性能を維持した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています