HyperAI超神经

摘要

我们研究了在单一联合奖励信号下合作多智能体强化学习的问题。这类学习问题之所以困难，主要是因为通常具有较大的组合动作空间和观察空间。在完全集中式和分布式方法中，我们发现了虚假奖励问题以及我们称之为“懒惰智能体”现象，这些问题的出现是由于部分可观测性导致的。为了解决这些问题，我们提出了一种新的价值分解网络架构来训练单个智能体，该架构能够学习将团队价值函数分解为个体智能体的价值函数。我们在一系列部分可观测的多智能体领域进行了实验评估，结果表明，学习这种价值分解可以带来更优的结果，尤其是在结合权重共享、角色信息和信息通道时。

摘要

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

值分解网络在合作多智能体学习中的应用

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

值分解网络在合作多智能体学习中的应用

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

值分解网络在合作多智能体学习中的应用

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

摘要

用 AI 构建 AI

HyperAI Newsletters