11 天前

用于多智能体强化学习中分布值函数分解的统一框架

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee
用于多智能体强化学习中分布值函数分解的统一框架
摘要

在完全协作的多智能体强化学习(MARL)环境中,由于每个智能体的观测具有部分可观测性,且其他智能体的策略持续动态变化,环境表现出高度的随机性。为应对上述挑战,我们提出了一种统一框架——DFAC(Distributional Factorization of Action Values),该框架将分布式强化学习(Distributional RL)与价值函数分解方法相结合。该框架将传统的期望值函数分解方法推广至回报分布层面,实现了对回报分布的分解。为验证DFAC的有效性,我们首先在具有随机奖励的简单矩阵博弈中展示了其对价值函数的分解能力;随后,在星际争霸多智能体挑战赛(StarCraft Multi-Agent Challenge)的所有“超难”(Super Hard)地图以及六张自定义设计的“极难”(Ultra Hard)地图上进行了实验,结果表明,DFAC在多数情况下显著优于多个基线方法。