
摘要
深度强化学习方法在众多具有挑战性的协作式多智能体任务中表现出色。目前,两个极具前景的研究方向分别是多智能体值函数分解与多智能体策略梯度方法。本文提出了一种新型的分解式多智能体软演员-评论家算法(decomposed multi-agent soft actor-critic, mSAC),该方法有效融合了上述两种技术的优势。其核心模块包括:分解式Q网络架构、离散概率策略以及可选的反事实优势函数(counterfactual advantage function)。理论上,mSAC支持高效的离策略学习,并在离散与连续动作空间中均能部分解决信用分配(credit assignment)问题。在StarCraft II微操协作多智能体基准测试平台上,我们通过实验评估了mSAC及其变体的性能,并分析了各组件的作用。实验结果表明,mSAC显著优于基于策略的方法COMA,在多数任务上达到了与当前最优(SOTA)基于值函数的方法Qmix相当的渐近性能表现。此外,mSAC在大规模动作空间任务(如2c_vs_64zg和MMM2)中也取得了优异的表现。