6 个月前

Yuan Pu Shaochen Wang Rui Yang Xin Yao Bin Li

摘要

深度强化学习方法在众多具有挑战性的协作式多智能体任务中表现出色。目前，两个极具前景的研究方向分别是多智能体值函数分解与多智能体策略梯度方法。本文提出了一种新型的分解式多智能体软演员-评论家算法（decomposed multi-agent soft actor-critic, mSAC），该方法有效融合了上述两种技术的优势。其核心模块包括：分解式Q网络架构、离散概率策略以及可选的反事实优势函数（counterfactual advantage function）。理论上，mSAC支持高效的离策略学习，并在离散与连续动作空间中均能部分解决信用分配（credit assignment）问题。在StarCraft II微操协作多智能体基准测试平台上，我们通过实验评估了mSAC及其变体的性能，并分析了各组件的作用。实验结果表明，mSAC显著优于基于策略的方法COMA，在多数任务上达到了与当前最优（SOTA）基于值函数的方法Qmix相当的渐近性能表现。此外，mSAC在大规模动作空间任务（如2c_vs_64zg和MMM2）中也取得了优异的表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Yuan Pu Shaochen Wang Rui Yang Xin Yao Bin Li

摘要

深度强化学习方法在众多具有挑战性的协作式多智能体任务中表现出色。目前，两个极具前景的研究方向分别是多智能体值函数分解与多智能体策略梯度方法。本文提出了一种新型的分解式多智能体软演员-评论家算法（decomposed multi-agent soft actor-critic, mSAC），该方法有效融合了上述两种技术的优势。其核心模块包括：分解式Q网络架构、离散概率策略以及可选的反事实优势函数（counterfactual advantage function）。理论上，mSAC支持高效的离策略学习，并在离散与连续动作空间中均能部分解决信用分配（credit assignment）问题。在StarCraft II微操协作多智能体基准测试平台上，我们通过实验评估了mSAC及其变体的性能，并分析了各组件的作用。实验结果表明，mSAC显著优于基于策略的方法COMA，在多数任务上达到了与当前最优（SOTA）基于值函数的方法Qmix相当的渐近性能表现。此外，mSAC在大规模动作空间任务（如2c_vs_64zg和MMM2）中也取得了优异的表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供