Command Palette
Search for a command to run...
通过上下文共玩家推理实现多Agent协作
通过上下文共玩家推理实现多Agent协作
Marissa A. Weis Maciej Wołczyk Rajai Nasser Rif A. Saurous Blaise Agüera y Arcas João Sacramento Alexander Meulemans
摘要
在多智能体强化学习中,如何实现自利智能体之间的合作,依然是一个根本性挑战。近期研究发现,通过引入“具备学习意识”的智能体——即能够考虑并影响同伴智能体学习动态的智能体——可以在二者之间诱导出相互合作的行为。然而,现有方法通常依赖于预先设定的、常常不一致的关于同伴学习规则的假设,或强制在“朴素学习者”(以快速时间尺度更新)与“元学习者”(观察并学习这些更新)之间建立严格的分离。本文中,我们展示序列模型所具备的上下文学习能力,使得智能体能够具备对同伴学习行为的感知,而无需依赖预设假设或显式的时序尺度分离。我们发现,当序列模型智能体在多样化同伴分布上进行训练时,自然会涌现出基于上下文的最佳响应策略,这些策略在单个智能体episode内的快速时间尺度上,有效扮演了学习算法的角色。我们观察到,先前研究中识别出的合作机制——即对勒索行为的脆弱性驱动了相互塑造——在此设定下自然出现:上下文适应使智能体对勒索行为变得脆弱,而由此产生的相互压力促使智能体去塑造对方的上下文学习动态,最终演化为合作行为的学习。我们的研究结果表明,将标准的去中心化强化学习方法应用于序列模型,并结合同伴的多样性,为学习合作行为提供了一条可扩展的路径。