Command Palette
Search for a command to run...
ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit
ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit
Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang
Zusammenfassung
Multi-Agent-Reinforcement-Learning (MARL) leidet unter dem Problem der Nichtstationarität, das sich daraus ergibt, dass die Zielvorgaben bei jeder Iteration ständig wechseln, wenn mehrere Agenten gleichzeitig ihre Politiken aktualisieren. Ausgehend von ersten Prinzipien lösen wir dieses Problem in diesem Paper, indem wir bidirektionales actionsabhängiges Q-Lernen (ACE) einführen. Zentral für die Entwicklung von ACE ist der sequenzielle Entscheidungsprozess, bei dem jeweils nur ein Agent zu einem Zeitpunkt eine Aktion ausführen darf. Innerhalb dieses Prozesses maximiert jeder Agent seine Wertfunktion unter Berücksichtigung der Aktionen der vorherigen Agenten im Inferenzstadium. Im Lernprozess minimiert jeder Agent den TD-Fehler, der davon abhängt, wie die nachfolgenden Agenten auf die gewählte Aktion reagiert haben. Aufgrund der bidirektionalen Abhängigkeitsstruktur transformiert ACE ein Multi-Agenten-MDP effektiv in ein Einzel-Agenten-MDP. Wir implementieren den ACE-Framework, indem wir eine geeignete Netzwerkrepräsentation identifizieren, um die Aktionenabhängigkeit zu formulieren, sodass der sequenzielle Entscheidungsprozess implizit in einem einzigen Vorwärtsdurchlauf berechnet wird. Um ACE zu validieren, vergleichen wir es mit starken Baselines auf zwei MARL-Benchmarks. Empirische Experimente zeigen, dass ACE die derzeit besten Algorithmen auf Google Research Football und StarCraft Multi-Agent Challenge mit einem erheblichen Abstand schlägt. Insbesondere erreicht ACE auf den SMAC-Aufgaben eine Erfolgsquote von 100 % auf fast allen schwierigen und extrem schwierigen Karten. Wir untersuchen zudem umfassende Forschungsfragen im Zusammenhang mit ACE, darunter Erweiterbarkeit, Generalisierbarkeit und Praktikabilität. Der Quellcode wird zur Förderung weiterer Forschung bereitgestellt.