DFAC-Framework: Faktorisierung der Wertfunktion mittels Quantil-Mischung für verteilte Q-Lernen in mehragentensystemen

In vollständig kooperativen Multi-Agenten-Verstärkungslern-(MARL-)Szenarien sind die Umgebungen aufgrund der partiellen Beobachtbarkeit jedes Agents und der kontinuierlich sich ändernden Politiken der anderen Agenten stark stochastisch. Um diese Herausforderungen anzugehen, integrieren wir verteilungsbasiertes RL mit Verfahren zur Wertfunktionsfaktorisierung, indem wir einen Rahmenwerk namens Distributional Value Function Factorization (DFAC) vorschlagen, um erwartungswertbasierte Wertfunktionsfaktorisierungsverfahren auf deren DFAC-Varianten zu verallgemeinern. DFAC erweitert die individuellen Nutzenfunktionen von deterministischen Variablen auf zufällige Variablen und modelliert die Quantilfunktion des Gesamtertrags als Quantil-Mischung. Zur Validierung von DFAC zeigen wir dessen Fähigkeit, ein einfaches zweistufiges Matrixspiel mit stochastischen Belohnungen zu faktorisieren, und führen Experimente auf allen „Super Hard“-Aufgaben der StarCraft Multi-Agent Challenge durch, wobei sich ergibt, dass DFAC die Leistung von erwartungswertbasierten Faktorisierungs-Baselines übertreffen kann.