8 个月前

Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut

摘要

尽管当前强化学习（Reinforcement Learning, RL）领域的大多数研究都集中在提高算法在受控环境中的性能，但在类似视频游戏行业这样具有特定约束条件下的RL应用却鲜有研究。为了在这种约束条件下运行，我们提出了混合软演员评论家算法（Hybrid SAC），这是软演员评论家算法的一种扩展，能够以原则性的方式处理离散动作、连续动作和参数化动作。我们展示了Hybrid SAC能够在我们的一个游戏中成功解决高速驾驶任务，并且在参数化动作基准任务上与现有最先进方法具有竞争力。此外，我们还探讨了使用归一化流（normalizing flows）来增强策略表达能力的影响，这种方法可以在最小计算成本下实现。同时，我们也识别出当SAC与归一化流结合使用时可能产生的一种潜在不良效应，并提出可以通过优化不同的目标函数来解决这一问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Olivier Delalleau Maxim Peter Eloi Alonso Adrien Logut

摘要

尽管当前强化学习（Reinforcement Learning, RL）领域的大多数研究都集中在提高算法在受控环境中的性能，但在类似视频游戏行业这样具有特定约束条件下的RL应用却鲜有研究。为了在这种约束条件下运行，我们提出了混合软演员评论家算法（Hybrid SAC），这是软演员评论家算法的一种扩展，能够以原则性的方式处理离散动作、连续动作和参数化动作。我们展示了Hybrid SAC能够在我们的一个游戏中成功解决高速驾驶任务，并且在参数化动作基准任务上与现有最先进方法具有竞争力。此外，我们还探讨了使用归一化流（normalizing flows）来增强策略表达能力的影响，这种方法可以在最小计算成本下实现。同时，我们也识别出当SAC与归一化流结合使用时可能产生的一种潜在不良效应，并提出可以通过优化不同的目标函数来解决这一问题。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供