13 天前

复杂动作空间中的学习与规划

Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Mohammadamin Barekatain, Simon Schmitt, David Silver
复杂动作空间中的学习与规划
摘要

许多重要的现实世界问题涉及高维、连续或兼具高维与连续特性的动作空间,导致对所有可能动作进行完整枚举在计算上不可行。因此,通常只能对动作空间的较小子集进行采样,用于策略评估与改进。本文提出一种通用框架,能够以严谨的理论方式对这类采样得到的动作子集进行策略评估与改进。该基于采样的策略迭代框架原则上可应用于任何基于策略迭代的强化学习算法。具体而言,我们提出了“采样版MuZero”(Sampled MuZero),作为MuZero算法的扩展,能够在动作空间任意复杂的环境中通过在采样动作上进行规划来实现学习。我们在经典的围棋(Go)游戏以及两个连续控制基准任务——DeepMind控制套件(DeepMind Control Suite)和真实世界强化学习套件(Real-World RL Suite)上验证了该方法的有效性。