2 个月前

软演员评论家:基于随机演员的离策略最大熵深度强化学习

Tuomas Haarnoja; Aurick Zhou; Pieter Abbeel; Sergey Levine
软演员评论家:基于随机演员的离策略最大熵深度强化学习
摘要

无模型的深度强化学习(RL)算法已经在一系列具有挑战性的决策和控制任务中得到了验证。然而,这些方法通常面临两个主要问题:极高的样本复杂度和脆弱的收敛特性,这需要仔细调整超参数。这两个问题严重限制了此类方法在复杂现实领域的应用。本文中,我们提出了一种基于最大熵强化学习框架的离策略演员-评论家深度强化学习算法——软演员-批评家算法(Soft Actor-Critic)。在这个框架下,演员不仅旨在最大化预期奖励,还力求最大化熵。也就是说,在完成任务的同时尽可能随机地行动。此前基于该框架的深度强化学习方法大多被表述为Q学习方法。通过结合离策略更新与稳定的随机演员-评论家公式化方法,我们的方法在一系列连续控制基准任务上实现了最先进的性能,超越了先前的策略内和策略外的方法。此外,我们证明了与其他离策略算法相比,我们的方法非常稳定,在不同的随机种子下能够实现非常相似的性能。