9 天前

随机环境中的基于学习模型的规划

{David Silver, Thomas K Hubert, Sherjil Ozair, Julian Schrittwieser, Ioannis Antonoglou}
随机环境中的基于学习模型的规划
摘要

基于模型的强化学习已证明具有极高的成功性。然而,在规划过程中单独学习模型的做法在复杂环境中存在明显局限。迄今为止,最有效的技术方案是将价值等价的模型学习与强大的树搜索方法相结合。这一思路的典型代表是MuZero,其在多种领域均取得了当前最优性能,涵盖棋类游戏、视觉丰富的环境,以及具有离散与连续动作空间的在线与离线场景。然而,此前该方法的实现均局限于使用确定性模型,这在本质上具有随机性、部分可观测,或因规模与复杂度极高而对有限智能体而言呈现出随机特性的环境中,显著限制了其性能表现。本文将该方法拓展至学习与规划中使用随机模型。具体而言,我们提出一种新算法——Stochastic MuZero,该算法能够学习包含后状态(afterstates)的随机模型,并基于该模型执行随机树搜索。在一系列经典单智能体与多智能体环境中,Stochastic MuZero在2048、双陆棋(backgammon)等任务上达到了或超越了现有最先进水平,同时在围棋任务中保持了与标准MuZero相当的性能。

随机环境中的基于学习模型的规划 | 最新论文 | HyperAI超神经