6 个月前

摘要

软演员-评论家（Soft Actor-Critic）是一种先进的强化学习算法，适用于连续动作空间，但不适用于离散动作空间。然而，许多重要应用场景涉及离散动作，因此本文推导出一种适用于离散动作设置的软演员-评论家算法变体。实验结果表明，即使不进行任何超参数调优，该算法在Atari游戏套件中若干任务上的表现也能够与经过调优的、当前最优的无模型强化学习方法相媲美。

源 PDF