Command Palette
Search for a command to run...
{Jinwoo Shin Yung Yi Junsu Kim Kyunghwan Son}

要約
協調型マルチエージェント強化学習において、状態遷移、報酬、行動のすべてが、観測される長期的リターンにランダム性(または不確実性)をもたらす要因となる。これらのランダム性は、2つのリスク要因に起因している:(a)エージェントごとのリスク(すなわち、特定のエージェントに対して仲間エージェントがどれほど協調的に行動するか)、および(b)環境ごとのリスク(すなわち、遷移の確率的性質)。これらの2つの要因は、エージェントのロバストな方策の学習においてともに重要な役割を果たすが、従来の研究ではこれらを分離して扱うことがなく、あるいは片方のリスク要因のみを考慮しているため、最適な均衡に到達できない可能性がある。本論文では、リスク要因を分離可能な新しいフレームワークである「Disentangled RIsk-sensitive Multi-Agent reinforcement learning(DRIMA)」を提案する。本研究の核心的なアイデアは、階層的な分位数構造と分位数回帰を用いて、集中学習と分散実行の両方においてリスクレベルの要因(すなわち分位数)を分離することである。実験の結果、DRIMAはStarCraftマルチエージェントチャレンジのさまざまなシナリオにおいて、従来手法を著しく上回る性能を示した。特に、報酬設計や探索スケジュールの変更にかかわらず、DRIMAは安定した性能を発揮する一方で、従来手法は部分的に最適な方策しか学習できなかった。
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| smac-on-smac-def-armored-parallel | DRIMA | Median Win Rate: 60.0 |
| smac-on-smac-def-armored-sequential | DRIMA | Median Win Rate: 100 |
| smac-on-smac-def-infantry-parallel | DRIMA | Median Win Rate: 100.0 |
| smac-on-smac-def-infantry-sequential | DRIMA | Median Win Rate: 100 |
| smac-on-smac-def-outnumbered-parallel | DRIMA | Median Win Rate: 70.0 |
| smac-on-smac-def-outnumbered-sequential | DRIMA | Median Win Rate: 100 |
| smac-on-smac-off-complicated-parallel | DRIMA | Median Win Rate: 100 |
| smac-on-smac-off-complicated-sequential | DRIMA | Median Win Rate: 96.9 |
| smac-on-smac-off-distant-parallel | DRIMA | Median Win Rate: 95.0 |
| smac-on-smac-off-distant-sequential | DRIMA | Median Win Rate: 100 |
| smac-on-smac-off-hard-parallel | DRIMA | Median Win Rate: 80.0 |
| smac-on-smac-off-hard-sequential | DRIMA | Median Win Rate: 93.8 |
| smac-on-smac-off-near-parallel | DRIMA | Median Win Rate: 95.0 |
| smac-on-smac-off-near-sequential | DRIMA | Median Win Rate: 93.8 |
| smac-on-smac-off-superhard-parallel | DRIMA | Median Win Rate: 0.0 |
| smac-on-smac-off-superhard-sequential | DRIMA | Median Win Rate: 15.6 |