11日前

DFACフレームワーク:量的混合を用いた価値関数の因子分解によるマルチエージェント分布型Q学習

Wei-Fang Sun, Cheng-Kuang Lee, Chun-Yi Lee
DFACフレームワーク:量的混合を用いた価値関数の因子分解によるマルチエージェント分布型Q学習
要約

完全協調型マルチエージェント強化学習(MARL)の設定では、各エージェントの部分観測性および他のエージェントのポリシーが継続的に変化するため、環境は非常に確率的(ストキャスティック)である。上記の課題に対処するため、本研究では分布型強化学習(Distributional RL)と価値関数因子分解法を統合し、期待値関数因子分解法をその分布型バージョンに一般化するための「分布型価値関数因子分解(DFAC)」フレームワークを提案する。DFACは個々の効用関数を決定論的変数から確率的変数へ拡張し、総報酬の分位数関数を分位数混合(quantile mixture)としてモデル化する。DFACの有効性を検証するために、確率的報酬を伴うシンプルな2ステップ行列ゲームにおける因子分解能力を示し、StarCraftマルチエージェントチャレンジのすべての「スーパーハード」タスクにおいて実験を実施した。その結果、DFACが期待値関数因子分解ベースラインを上回る性能を発揮することを確認した。

DFACフレームワーク:量的混合を用いた価値関数の因子分解によるマルチエージェント分布型Q学習 | 最新論文 | HyperAI超神経