HyperAIHyperAI

Command Palette

Search for a command to run...

カウンターファクチュアルマルチエージェントポリシーグラディエント

Jakob N. Foerster Triantafyllos Afouras Nantas Nardelli Shimon Whiteson

概要

協調型多エージェントシステムは、ネットワークパケットルーティングや自律車両の調整など、多くの現実世界の問題をモデル化するために自然に使用することができます。このようなシステムに対する分散ポリシーを効率的に学習できる新しい強化学習手法の開発が強く求められています。この目的のために、我々はカウンターファクチュアル・マルチエージェント(COMA)ポリシーグラディエントと呼ばれる新しい多エージェントアクター・クリティック手法を提案します。COMAは、Q関数を推定するための中核的なクリティックと、エージェントのポリシーを最適化するための分散型アクターを使用します。さらに、多エージェントでの報酬分配の課題に対処するために、他のエージェントの行動を固定したまま単一のエージェントの行動を周辺化するカウンターファクチュアルベースラインを利用します。COMAはまた、カウンターファクチュアルベースラインを単一の順方向パスで効率的に計算できるクリティック表現を使用しています。我々はStarCraftユニットマイクロマネジメントというテストベッドにおいて、部分観測性が著しい分散型バリアントを使用してCOMAを評価しました。この設定では、COMAは他の多エージェントアクター・クリティック手法よりも平均性能が大幅に向上しており、最高性能を出したエージェントは完全状態情報にアクセスできる最先端の中核制御器と競争力があります。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
カウンターファクチュアルマルチエージェントポリシーグラディエント | 記事 | HyperAI超神経