2 个月前

QMIX：深度多智能体强化学习中的单调价值函数分解

Tabish Rashid; Mikayel Samvelyan; Christian Schroeder de Witt; Gregory Farquhar; Jakob Foerster; Shimon Whiteson

摘要

在许多现实场景中，一组智能体必须在分散的方式下协调其行为。同时，在模拟或实验室环境中，通常可以以集中方式训练这些智能体，此时可以获得全局状态信息并且通信限制被解除。基于额外状态信息学习联合行动价值是一种利用集中学习的有效方法，但如何从中提取分散策略仍不清楚。我们的解决方案是QMIX，这是一种新颖的价值基础方法，能够以集中端到端的方式训练分散策略。QMIX采用了一个网络，该网络将联合行动价值估计为每个智能体仅基于局部观察值的复杂非线性组合。我们从结构上确保了联合行动价值对每个智能体的价值是单调的，这使得在离策略学习中可以有效地最大化联合行动价值，并保证集中策略与分散策略之间的一致性。我们在一系列具有挑战性的《星际争霸II》微观管理任务上评估了QMIX，并证明QMIX显著优于现有的基于价值的多智能体强化学习方法。