2ヶ月前

価値分解ネットワークによる協調型多エージェント学習

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel
価値分解ネットワークによる協調型多エージェント学習
要約

私たちは、単一の共同報酬信号を持つ協調型多エージェント強化学習の問題を研究しています。この学習問題のクラスは、しばしば大きな結合行動空間と観測空間のために困難です。完全に集中型および分散型アプローチにおいて、私たちは偽の報酬(spurious rewards)の問題と部分観測性により生じる「怠惰なエージェント」問題という現象を見つけました。これらの問題に対処するために、新しい価値分解ネットワークアーキテクチャを使用して個々のエージェントを訓練します。このアーキテクチャは、チームの価値関数をエージェントごとの価値関数に分解することを学びます。部分観測性のある多エージェントドメインにおける実験評価を行い、このような価値分解が優れた結果につながることを示しました。特に、重み共有、役割情報、情報チャンネルと組み合わせるとその効果が顕著です。

価値分解ネットワークによる協調型多エージェント学習 | 最新論文 | HyperAI超神経