
摘要
在完全协作的多智能体强化学习(MARL)环境中,由于每个智能体的观测具有部分可观测性,且其他智能体的策略持续动态变化,环境呈现出高度的随机性。为应对上述挑战,本文提出一种分布式价值函数分解框架——分布式价值函数分解(Distributional Value Function Factorization, DFAC),将分布式强化学习与价值函数分解方法相结合,实现了对传统期望值函数分解方法的推广,构建其分布式变体。DFAC 将个体效用函数从确定性变量扩展为随机变量,并将总回报的分位数函数建模为分位数混合形式。为验证 DFAC 的有效性,本文首先展示了其在具有随机奖励的简单两步矩阵博弈中的分解能力,随后在 StarCraft 多智能体挑战赛(StarCraft Multi-Agent Challenge)的所有“超难”(Super Hard)任务上进行了实验。实验结果表明,DFAC 在性能上显著优于基于期望值函数分解的基线方法。