2 个月前

离散和连续动作表示在视频游戏中的实用强化学习

Olivier Delalleau; Maxim Peter; Eloi Alonso; Adrien Logut
离散和连续动作表示在视频游戏中的实用强化学习
摘要

尽管当前强化学习(Reinforcement Learning, RL)领域的大多数研究都集中在提高算法在受控环境中的性能,但在类似视频游戏行业这样具有特定约束条件下的RL应用却鲜有研究。为了在这种约束条件下运行,我们提出了混合软演员评论家算法(Hybrid SAC),这是软演员评论家算法的一种扩展,能够以原则性的方式处理离散动作、连续动作和参数化动作。我们展示了Hybrid SAC能够在我们的一个游戏中成功解决高速驾驶任务,并且在参数化动作基准任务上与现有最先进方法具有竞争力。此外,我们还探讨了使用归一化流(normalizing flows)来增强策略表达能力的影响,这种方法可以在最小计算成本下实现。同时,我们也识别出当SAC与归一化流结合使用时可能产生的一种潜在不良效应,并提出可以通过优化不同的目标函数来解决这一问题。

离散和连续动作表示在视频游戏中的实用强化学习 | 最新论文 | HyperAI超神经