vor 2 Monaten

Counterfaktische Mehragenten-Policy-Gradients

Jakob Foerster; Gregory Farquhar; Triantafyllos Afouras; Nantas Nardelli; Shimon Whiteson

Abstract

Kooperative Mehragentensysteme können auf natürliche Weise viele reale Probleme modellieren, wie zum Beispiel das Routing von Netzwerkpaketen und die Koordination autonomer Fahrzeuge. Es besteht ein großes Bedürfnis nach neuen Verstärkungslernmethoden, die effizient dezentrale Strategien für solche Systeme erlernen können. Zu diesem Zweck schlagen wir eine neue Mehragenten-Aktor-Kritiker-Methode vor, die als Counterfactual Multi-Agent (COMA) Policy Gradients bezeichnet wird. COMA verwendet einen zentralisierten Kritiker zur Schätzung der Q-Funktion und dezentralisierte Akteure zur Optimierung der Agentenstrategien. Zudem adressiert es die Herausforderungen der Mehragentenzuordnung durch die Verwendung eines kontrafaktischen Baselines, der die Aktion eines einzelnen Agenten marginalisiert, während die Aktionen der anderen Agenten fix bleiben. COMA verwendet auch eine Kritikerdarstellung, die es ermöglicht, den kontrafaktischen Baseline effizient in einem einzigen Vorwärtsdurchgang zu berechnen. Wir evaluieren COMA im Testfeld der Mikroverwaltung von StarCraft-Einheiten unter Verwendung einer dezentralisierten Variante mit erheblicher partieller Beobachtbarkeit. COMA verbessert in dieser Umgebung signifikant den durchschnittlichen Leistungsniveau im Vergleich zu anderen Mehragenten-Aktor-Kritiker-Methoden, und die besten performenden Agenten sind wettbewerbsfähig mit den neuesten zentralisierten Steuerungen, die Zugang zum vollständigen Zustand haben.