HyperAIHyperAI

Command Palette

Search for a command to run...

価値分解ネットワークによる協調型多エージェント学習

Peter Sunehag; Guy Lever; Audrunas Gruslys; Wojciech Marian Czarnecki; Vinicius Zambaldi; Max Jaderberg; Marc Lanctot; Nicolas Sonnerat; Joel Z. Leibo; Karl Tuyls; Thore Graepel

概要

私たちは、単一の共同報酬信号を持つ協調型多エージェント強化学習の問題を研究しています。この学習問題のクラスは、しばしば大きな結合行動空間と観測空間のために困難です。完全に集中型および分散型アプローチにおいて、私たちは偽の報酬(spurious rewards)の問題と部分観測性により生じる「怠惰なエージェント」問題という現象を見つけました。これらの問題に対処するために、新しい価値分解ネットワークアーキテクチャを使用して個々のエージェントを訓練します。このアーキテクチャは、チームの価値関数をエージェントごとの価値関数に分解することを学びます。部分観測性のある多エージェントドメインにおける実験評価を行い、このような価値分解が優れた結果につながることを示しました。特に、重み共有、役割情報、情報チャンネルと組み合わせるとその効果が顕著です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
価値分解ネットワークによる協調型多エージェント学習 | 記事 | HyperAI超神経