HyperAIHyperAI

Command Palette

Search for a command to run...

离散动作设置下的软演员-评论家算法

Petros Christodoulou

摘要

软演员-评论家(Soft Actor-Critic)是一种先进的强化学习算法,适用于连续动作空间,但不适用于离散动作空间。然而,许多重要应用场景涉及离散动作,因此本文推导出一种适用于离散动作设置的软演员-评论家算法变体。实验结果表明,即使不进行任何超参数调优,该算法在Atari游戏套件中若干任务上的表现也能够与经过调优的、当前最优的无模型强化学习方法相媲美。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
离散动作设置下的软演员-评论家算法 | 论文 | HyperAI超神经