HyperAIHyperAI

Command Palette

Search for a command to run...

Counterfaktische Mehragenten-Policy-Gradients

Jakob N. Foerster Triantafyllos Afouras Nantas Nardelli Shimon Whiteson

Zusammenfassung

Kooperative Mehragentensysteme können auf natürliche Weise viele reale Probleme modellieren, wie zum Beispiel das Routing von Netzwerkpaketen und die Koordination autonomer Fahrzeuge. Es besteht ein großes Bedürfnis nach neuen Verstärkungslernmethoden, die effizient dezentrale Strategien für solche Systeme erlernen können. Zu diesem Zweck schlagen wir eine neue Mehragenten-Aktor-Kritiker-Methode vor, die als Counterfactual Multi-Agent (COMA) Policy Gradients bezeichnet wird. COMA verwendet einen zentralisierten Kritiker zur Schätzung der Q-Funktion und dezentralisierte Akteure zur Optimierung der Agentenstrategien. Zudem adressiert es die Herausforderungen der Mehragentenzuordnung durch die Verwendung eines kontrafaktischen Baselines, der die Aktion eines einzelnen Agenten marginalisiert, während die Aktionen der anderen Agenten fix bleiben. COMA verwendet auch eine Kritikerdarstellung, die es ermöglicht, den kontrafaktischen Baseline effizient in einem einzigen Vorwärtsdurchgang zu berechnen. Wir evaluieren COMA im Testfeld der Mikroverwaltung von StarCraft-Einheiten unter Verwendung einer dezentralisierten Variante mit erheblicher partieller Beobachtbarkeit. COMA verbessert in dieser Umgebung signifikant den durchschnittlichen Leistungsniveau im Vergleich zu anderen Mehragenten-Aktor-Kritiker-Methoden, und die besten performenden Agenten sind wettbewerbsfähig mit den neuesten zentralisierten Steuerungen, die Zugang zum vollständigen Zustand haben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp