2 个月前

值分解网络在合作多智能体学习中的应用

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel
值分解网络在合作多智能体学习中的应用
摘要

我们研究了在单一联合奖励信号下合作多智能体强化学习的问题。这类学习问题之所以困难,主要是因为通常具有较大的组合动作空间和观察空间。在完全集中式和分布式方法中,我们发现了虚假奖励问题以及我们称之为“懒惰智能体”现象,这些问题的出现是由于部分可观测性导致的。为了解决这些问题,我们提出了一种新的价值分解网络架构来训练单个智能体,该架构能够学习将团队价值函数分解为个体智能体的价值函数。我们在一系列部分可观测的多智能体领域进行了实验评估,结果表明,学习这种价值分解可以带来更优的结果,尤其是在结合权重共享、角色信息和信息通道时。