摘要

在多智能体强化学习中，如何实现自利智能体之间的合作，依然是一个根本性挑战。近期研究发现，通过引入“具备学习意识”的智能体——即能够考虑并影响同伴智能体学习动态的智能体——可以在二者之间诱导出相互合作的行为。然而，现有方法通常依赖于预先设定的、常常不一致的关于同伴学习规则的假设，或强制在“朴素学习者”（以快速时间尺度更新）与“元学习者”（观察并学习这些更新）之间建立严格的分离。本文中，我们展示序列模型所具备的上下文学习能力，使得智能体能够具备对同伴学习行为的感知，而无需依赖预设假设或显式的时序尺度分离。我们发现，当序列模型智能体在多样化同伴分布上进行训练时，自然会涌现出基于上下文的最佳响应策略，这些策略在单个智能体episode内的快速时间尺度上，有效扮演了学习算法的角色。我们观察到，先前研究中识别出的合作机制——即对勒索行为的脆弱性驱动了相互塑造——在此设定下自然出现：上下文适应使智能体对勒索行为变得脆弱，而由此产生的相互压力促使智能体去塑造对方的上下文学习动态，最终演化为合作行为的学习。我们的研究结果表明，将标准的去中心化强化学习方法应用于序列模型，并结合同伴的多样性，为学习合作行为提供了一条可扩展的路径。

源 PDF