2 个月前
多智能体演员-评论家在混合合作-竞争环境中的应用
Ryan Lowe; Yi Wu; Aviv Tamar; Jean Harb; Pieter Abbeel; Igor Mordatch

摘要
我们探讨了多智能体领域中的深度强化学习方法。首先,分析了传统算法在多智能体情况下的困难:Q-学习面临着环境固有的非平稳性挑战,而策略梯度方法则随着智能体数量的增加而面临方差增大的问题。接着,我们提出了一种适应性的演员-评论家(actor-critic)方法,该方法考虑了其他智能体的动作策略,并能够成功学习需要复杂多智能体协调的策略。此外,我们引入了一种训练方案,即为每个智能体使用一组策略集合(ensemble of policies),从而导致更加稳健的多智能体策略。我们在合作场景和竞争场景中展示了我们的方法相对于现有方法的优势,其中智能体群体能够发现各种物理和信息协调策略。