HyperAIHyperAI

Command Palette

Search for a command to run...

值分解网络在合作多智能体学习中的应用

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

我们研究了在单一联合奖励信号下合作多智能体强化学习的问题。这类学习问题之所以困难,主要是因为通常具有较大的组合动作空间和观察空间。在完全集中式和分布式方法中,我们发现了虚假奖励问题以及我们称之为“懒惰智能体”现象,这些问题的出现是由于部分可观测性导致的。为了解决这些问题,我们提出了一种新的价值分解网络架构来训练单个智能体,该架构能够学习将团队价值函数分解为个体智能体的价值函数。我们在一系列部分可观测的多智能体领域进行了实验评估,结果表明,学习这种价值分解可以带来更优的结果,尤其是在结合权重共享、角色信息和信息通道时。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供