HyperAIHyperAI
vor 2 Monaten

QTRAN: Lernen, zu faktorisieren mit Transformation für kooperative Mehragenten-Reinforcement-Learning

Kyunghwan Son; Daewoo Kim; Wan Ju Kang; David Earl Hostallero; Yung Yi
QTRAN: Lernen, zu faktorisieren mit Transformation für kooperative Mehragenten-Reinforcement-Learning
Abstract

Wir untersuchen wertbasierte Lösungen für Aufgaben des Multi-Agenten-Reinforcement-Learnings (MARL) im zentralisierten Trainings- und dezentralisierten Ausführungsregime (CTDE), das kürzlich populär geworden ist. VDN und QMIX sind beispielhafte Ansätze, die die Idee der Faktorisierung der gemeinsamen Aktionswertfunktion in individuelle für die dezentrale Ausführung nutzen. VDN und QMIX behandeln jedoch nur einen Teil der faktorisierbaren MARL-Aufgaben aufgrund ihrer strukturellen Einschränkungen in der Faktorisierung, wie etwa Additivität und Monotonie. In dieser Arbeit schlagen wir eine neue Faktorisierungsmethode für MARL vor, QTRAN, die von solchen strukturellen Einschränkungen freigesprochen ist und einen neuen Ansatz verfolgt, um die ursprüngliche gemeinsame Aktionswertfunktion in eine leicht faktorisierbare zu transformieren, wobei die optimalen Aktionen gleich bleiben. QTRAN garantiert eine allgemeinere Faktorisierung als VDN oder QMIX und deckt somit eine viel umfangreichere Klasse von MARL-Aufgaben ab als bisherige Methoden. Unsere Experimente zu den Aufgaben des mehrdomänen-Gauß-Squeezing und dem modifizierten Beutejäger-Spiel zeigen QTRANs überlegene Leistungsfähigkeit, insbesondere bei Spielen, deren Auszahlungen nicht-kooperatives Verhalten stärker bestrafen.