HyperAIHyperAI
vor 11 Tagen

Ein einheitlicher Rahmen zur Faktorisierung verteilungsbasierter Wertfunktionen für Multi-Agenten-Verstärkungslernen

Wei-Fang Sun, Cheng-Kuang Lee, Simon See, Chun-Yi Lee
Ein einheitlicher Rahmen zur Faktorisierung verteilungsbasierter Wertfunktionen für Multi-Agenten-Verstärkungslernen
Abstract

In vollständig kooperativen Multi-Agenten-Reinforcement-Learning-(MARL)-Umgebungen sind die Umgebungen aufgrund der partiellen Beobachtbarkeit jedes Agents und der kontinuierlich sich ändernden Politiken der anderen Agents stark stochastisch. Um diese Herausforderungen anzugehen, schlagen wir einen einheitlichen Rahmen namens DFAC vor, der verteilte RL-Methoden mit Verfahren zur Wertfunktionsfaktorisierung integriert. Dieser Rahmen verallgemeinert erwartete Wertfunktionsfaktorisierungsmethoden, um die Faktorisierung von Rückgabeverteilungen zu ermöglichen. Um die Wirksamkeit von DFAC zu validieren, zeigen wir zunächst dessen Fähigkeit, die Wertfunktionen eines einfachen Matrixspiels mit stochastischen Belohnungen zu faktorisieren. Anschließend führen wir Experimente auf allen „Super Hard“-Karten der StarCraft Multi-Agent Challenge sowie auf sechs eigenentwickelten „Ultra Hard“-Karten durch und zeigen, dass DFAC eine Reihe von Baselines übertrifft.

Ein einheitlicher Rahmen zur Faktorisierung verteilungsbasierter Wertfunktionen für Multi-Agenten-Verstärkungslernen | Neueste Forschungsarbeiten | HyperAI