2 个月前
反事实多智能体策略梯度
Jakob Foerster; Gregory Farquhar; Triantafyllos Afouras; Nantas Nardelli; Shimon Whiteson

摘要
合作多智能体系统可以自然地用于建模许多现实世界的问题,例如网络数据包路由和自主车辆的协调。对于此类系统,迫切需要新的强化学习方法来高效地学习去中心化的策略。为此,我们提出了一种新的多智能体行为-评论方法,称为反事实多智能体(COMA)策略梯度。COMA 使用一个集中式的评论器来估计 Q 函数,并使用去中心化的行动者来优化各智能体的策略。此外,为了解决多智能体信用分配的挑战,它采用了一个反事实基线,该基线在固定其他智能体动作的同时,排除单个智能体的动作的影响。COMA 还使用了一种评论器表示形式,使得反事实基线能够在一次前向传递中高效计算。我们在《星际争霸》单位微观管理测试环境中评估了 COMA 的性能,该环境采用了具有显著部分可观测性的去中心化变体。在这一设置下,COMA 显著提高了与其他多智能体行为-评论方法相比的平均性能,并且表现最佳的智能体与能够访问完整状态的最先进集中式控制器具有竞争力。