Dezomponierter Soft Actor-Critic-Ansatz für kooperatives mehragentenbasiertes Verstärkungslernen

Deep Reinforcement Learning-Methoden haben bei vielen anspruchsvollen kooperativen Mehr-Agenten-Aufgaben hervorragende Leistungen gezeigt. Zwei vielversprechende Forschungsrichtungen sind die Wertfunktionsdekomposition für Mehr-Agenten-Systeme und Mehr-Agenten-Policy-Gradienten. In diesem Paper stellen wir eine neue dekomponierte Mehr-Agenten-Soft Actor-Critic-(mSAC)-Methode vor, die effektiv die Vorzüge beider genannter Ansätze kombiniert. Die Hauptkomponenten umfassen eine dekomponierte Q-Netzwerk-Architektur, eine diskrete probabilistische Politik sowie eine gegenfaktische Vorteilsfunktion (optional). Theoretisch unterstützt mSAC eine effiziente Off-Policy-Lernstrategie und löst das Credit-Assignment-Problem teilweise sowohl in diskreten als auch in kontinuierlichen Aktionsräumen. Anhand des StarCraft II-Mikromanagement-Benchmarks für kooperative Mehr-Agenten-Aufgaben untersuchen wir empirisch die Leistungsfähigkeit von mSAC im Vergleich zu seinen Varianten und analysieren die Auswirkungen der verschiedenen Komponenten. Experimentelle Ergebnisse zeigen, dass mSAC die auf Politiken basierende Methode COMA erheblich übertrifft und im Hinblick auf die asymptotische Leistungsmetrik wettbewerbsfähige Ergebnisse mit der state-of-the-art-Wertbasierten-Methode Qmix erzielt. Zudem erzielt mSAC sehr gute Ergebnisse bei Aufgaben mit großen Aktionsräumen, wie beispielsweise 2c_vs_64zg und MMM2.