HyperAIHyperAI

Command Palette

Search for a command to run...

离散和连续动作表示在视频游戏中的实用强化学习

Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut

摘要

尽管当前强化学习(Reinforcement Learning, RL)领域的大多数研究都集中在提高算法在受控环境中的性能,但在类似视频游戏行业这样具有特定约束条件下的RL应用却鲜有研究。为了在这种约束条件下运行,我们提出了混合软演员评论家算法(Hybrid SAC),这是软演员评论家算法的一种扩展,能够以原则性的方式处理离散动作、连续动作和参数化动作。我们展示了Hybrid SAC能够在我们的一个游戏中成功解决高速驾驶任务,并且在参数化动作基准任务上与现有最先进方法具有竞争力。此外,我们还探讨了使用归一化流(normalizing flows)来增强策略表达能力的影响,这种方法可以在最小计算成本下实现。同时,我们也识别出当SAC与归一化流结合使用时可能产生的一种潜在不良效应,并提出可以通过优化不同的目标函数来解决这一问题。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供