HyperAIHyperAI

Command Palette

Search for a command to run...

DFAC-Framework: Faktorisierung der Wertfunktion mittels Quantil-Mischung für verteilte Q-Lernen in mehragentensystemen

Wei-Fang Sun Cheng-Kuang Lee Chun-Yi Lee

Zusammenfassung

In vollständig kooperativen Multi-Agenten-Verstärkungslern-(MARL-)Szenarien sind die Umgebungen aufgrund der partiellen Beobachtbarkeit jedes Agents und der kontinuierlich sich ändernden Politiken der anderen Agenten stark stochastisch. Um diese Herausforderungen anzugehen, integrieren wir verteilungsbasiertes RL mit Verfahren zur Wertfunktionsfaktorisierung, indem wir einen Rahmenwerk namens Distributional Value Function Factorization (DFAC) vorschlagen, um erwartungswertbasierte Wertfunktionsfaktorisierungsverfahren auf deren DFAC-Varianten zu verallgemeinern. DFAC erweitert die individuellen Nutzenfunktionen von deterministischen Variablen auf zufällige Variablen und modelliert die Quantilfunktion des Gesamtertrags als Quantil-Mischung. Zur Validierung von DFAC zeigen wir dessen Fähigkeit, ein einfaches zweistufiges Matrixspiel mit stochastischen Belohnungen zu faktorisieren, und führen Experimente auf allen „Super Hard“-Aufgaben der StarCraft Multi-Agent Challenge durch, wobei sich ergibt, dass DFAC die Leistung von erwartungswertbasierten Faktorisierungs-Baselines übertreffen kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DFAC-Framework: Faktorisierung der Wertfunktion mittels Quantil-Mischung für verteilte Q-Lernen in mehragentensystemen | Paper | HyperAI