
摘要
软演员-评论家(Soft Actor-Critic)是一种先进的强化学习算法,适用于连续动作空间,但不适用于离散动作空间。然而,许多重要应用场景涉及离散动作,因此本文推导出一种适用于离散动作设置的软演员-评论家算法变体。实验结果表明,即使不进行任何超参数调优,该算法在Atari游戏套件中若干任务上的表现也能够与经过调优的、当前最优的无模型强化学习方法相媲美。
软演员-评论家(Soft Actor-Critic)是一种先进的强化学习算法,适用于连续动作空间,但不适用于离散动作空间。然而,许多重要应用场景涉及离散动作,因此本文推导出一种适用于离散动作设置的软演员-评论家算法变体。实验结果表明,即使不进行任何超参数调优,该算法在Atari游戏套件中若干任务上的表现也能够与经过调优的、当前最优的无模型强化学习方法相媲美。