4ヶ月前

分布特性を有するマルチエージェント強化学習におけるリスク要因の分離

{Jinwoo Shin Yung Yi Junsu Kim Kyunghwan Son}

要約

協調型マルチエージェント強化学習において、状態遷移、報酬、行動のすべてが、観測される長期的リターンにランダム性（または不確実性）をもたらす要因となる。これらのランダム性は、2つのリスク要因に起因している：（a）エージェントごとのリスク（すなわち、特定のエージェントに対して仲間エージェントがどれほど協調的に行動するか）、および（b）環境ごとのリスク（すなわち、遷移の確率的性質）。これらの2つの要因は、エージェントのロバストな方策の学習においてともに重要な役割を果たすが、従来の研究ではこれらを分離して扱うことがなく、あるいは片方のリスク要因のみを考慮しているため、最適な均衡に到達できない可能性がある。本論文では、リスク要因を分離可能な新しいフレームワークである「Disentangled RIsk-sensitive Multi-Agent reinforcement learning（DRIMA）」を提案する。本研究の核心的なアイデアは、階層的な分位数構造と分位数回帰を用いて、集中学習と分散実行の両方においてリスクレベルの要因（すなわち分位数）を分離することである。実験の結果、DRIMAはStarCraftマルチエージェントチャレンジのさまざまなシナリオにおいて、従来手法を著しく上回る性能を示した。特に、報酬設計や探索スケジュールの変更にかかわらず、DRIMAは安定した性能を発揮する一方で、従来手法は部分的に最適な方策しか学習できなかった。

ベンチマーク

ベンチマーク	方法論	指標
smac-on-smac-def-armored-parallel	DRIMA	Median Win Rate: 60.0
smac-on-smac-def-armored-sequential	DRIMA	Median Win Rate: 100
smac-on-smac-def-infantry-parallel	DRIMA	Median Win Rate: 100.0
smac-on-smac-def-infantry-sequential	DRIMA	Median Win Rate: 100
smac-on-smac-def-outnumbered-parallel	DRIMA	Median Win Rate: 70.0
smac-on-smac-def-outnumbered-sequential	DRIMA	Median Win Rate: 100
smac-on-smac-off-complicated-parallel	DRIMA	Median Win Rate: 100
smac-on-smac-off-complicated-sequential	DRIMA	Median Win Rate: 96.9
smac-on-smac-off-distant-parallel	DRIMA	Median Win Rate: 95.0
smac-on-smac-off-distant-sequential	DRIMA	Median Win Rate: 100
smac-on-smac-off-hard-parallel	DRIMA	Median Win Rate: 80.0
smac-on-smac-off-hard-sequential	DRIMA	Median Win Rate: 93.8
smac-on-smac-off-near-parallel	DRIMA	Median Win Rate: 95.0
smac-on-smac-off-near-sequential	DRIMA	Median Win Rate: 93.8
smac-on-smac-off-superhard-parallel	DRIMA	Median Win Rate: 0.0
smac-on-smac-off-superhard-sequential	DRIMA	Median Win Rate: 15.6

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

分布特性を有するマルチエージェント強化学習におけるリスク要因の分離

{Jinwoo Shin Yung Yi Junsu Kim Kyunghwan Son}

要約

ベンチマーク

AI で AI を構築

Hyper Newsletters