HyperAIHyperAI

Command Palette

Search for a command to run...

Ein einheitlicher Rahmen zur Faktorisierung verteilungsbasierter Wertfunktionen für Multi-Agenten-Verstärkungslernen

Wei-Fang Sun Cheng-Kuang Lee Simon See Chun-Yi Lee

Zusammenfassung

In vollständig kooperativen Multi-Agenten-Reinforcement-Learning-(MARL)-Umgebungen sind die Umgebungen aufgrund der partiellen Beobachtbarkeit jedes Agents und der kontinuierlich sich ändernden Politiken der anderen Agents stark stochastisch. Um diese Herausforderungen anzugehen, schlagen wir einen einheitlichen Rahmen namens DFAC vor, der verteilte RL-Methoden mit Verfahren zur Wertfunktionsfaktorisierung integriert. Dieser Rahmen verallgemeinert erwartete Wertfunktionsfaktorisierungsmethoden, um die Faktorisierung von Rückgabeverteilungen zu ermöglichen. Um die Wirksamkeit von DFAC zu validieren, zeigen wir zunächst dessen Fähigkeit, die Wertfunktionen eines einfachen Matrixspiels mit stochastischen Belohnungen zu faktorisieren. Anschließend führen wir Experimente auf allen „Super Hard“-Karten der StarCraft Multi-Agent Challenge sowie auf sechs eigenentwickelten „Ultra Hard“-Karten durch und zeigen, dass DFAC eine Reihe von Baselines übertrifft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Ein einheitlicher Rahmen zur Faktorisierung verteilungsbasierter Wertfunktionen für Multi-Agenten-Verstärkungslernen | Paper | HyperAI