概要

自己利益を重視するエージェント間における協調の実現は、マルチエージェント強化学習における根本的な課題の一つである。近年の研究では、「学習に意識を持つ」エージェントが、仲間エージェントの学習ダイナミクスを認識し、それらを意図的に影響させることで、相互協調を促進できることを示した。しかし、従来の手法は、仲間エージェントの学習ルールについてハードコードされた、しばしば一貫性の欠ける仮定に依存しており、あるいは「素朴な学習者」（高速スケールで更新される）と「メタ学習者」（これらの更新を観測する）の間に厳格な時間スケールの分離を強制している。本研究では、系列モデルの文脈内学習（in-context learning）能力が、ハードコードされた仮定や明示的な時間スケールの分離を必要とせずに、仲間エージェントの学習に関する認識を実現可能であることを示す。多様な仲間エージェントの分布に対して系列モデルエージェントを訓練することで、文脈内最適反応戦略が自然に生じ、これはエピソード内高速スケールでの学習アルゴリズムとして機能する。我々は、以前の研究で指摘された協調メカニズム——すなわち、強制的な圧力への脆弱性が相互に学習ダイナミクスを変容させる要因となる——が、この設定において自然に出現することを明らかにした。すなわち、文脈内適応によってエージェントは強制的な圧力に対して脆弱となり、その結果生じる相手エージェントの文脈内学習ダイナミクスを変容させる相互的な圧力が、協調行動の学習へと結びつく。これらの結果から、系列モデルにおける標準的な分散型強化学習と仲間エージェントの多様性を組み合わせることで、協調行動の学習に向けたスケーラブルなアプローチが得られることを示唆している。

ソースPDF