HyperAIHyperAI
vor 2 Monaten

QMIX: Monotone Wertfunktionen-Faktorisierung für Deep Multi-Agent Reinforcement Learning

Tabish Rashid; Mikayel Samvelyan; Christian Schroeder de Witt; Gregory Farquhar; Jakob Foerster; Shimon Whiteson
QMIX: Monotone Wertfunktionen-Faktorisierung für Deep Multi-Agent Reinforcement Learning
Abstract

In vielen realen Szenarien müssen Agententeams ihr Verhalten koordinieren, während sie dezentral agieren. Gleichzeitig ist es oft möglich, die Agenten in einem zentralisierten Einstellung in einer simulierten oder laborbedingten Umgebung zu trainieren, wo globale Zustandsinformationen verfügbar sind und Kommunikationsbeschränkungen aufgehoben werden. Das Lernen von gemeinsamen Aktionswerten unter Berücksichtigung zusätzlicher Zustandsinformationen ist eine ansprechende Möglichkeit, zentralisiertes Lernen zu nutzen. Allerdings ist die beste Strategie zur Extraktion dezentraler Politiken unklar. Unsere Lösung ist QMIX, eine neuartige wertbasierte Methode, die es ermöglicht, dezentrale Politiken in einer zentralisierten und end-to-end-Modus zu trainieren. QMIX verwendet ein Netzwerk, das gemeinsame Aktionswerte als komplexe nicht-lineare Kombination der pro-Agent-Werte schätzt, die nur auf lokalen Beobachtungen basieren. Wir gewährleisten strukturell, dass der gemeinsame Aktionswert in den pro-Agent-Werten monoton steigt, was eine handhabbare Maximierung des gemeinsamen Aktionswerts im off-policy-Lernen ermöglicht und konsistenz zwischen den zentralisierten und dezentralisierten Politiken sicherstellt. Wir evaluieren QMIX anhand einer anspruchsvollen Reihe von StarCraft II-Mikroverwaltungsaufgaben und zeigen, dass QMIX erheblich über existierenden wertbasierten Methoden des mehragentigen Reinforcement Learnings hinausgeht.

QMIX: Monotone Wertfunktionen-Faktorisierung für Deep Multi-Agent Reinforcement Learning | Neueste Forschungsarbeiten | HyperAI