HyperAIHyperAI

Command Palette

Search for a command to run...

ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

Multi-Agent-Reinforcement-Learning (MARL) leidet unter dem Problem der Nichtstationarität, das sich daraus ergibt, dass die Zielvorgaben bei jeder Iteration ständig wechseln, wenn mehrere Agenten gleichzeitig ihre Politiken aktualisieren. Ausgehend von ersten Prinzipien lösen wir dieses Problem in diesem Paper, indem wir bidirektionales actionsabhängiges Q-Lernen (ACE) einführen. Zentral für die Entwicklung von ACE ist der sequenzielle Entscheidungsprozess, bei dem jeweils nur ein Agent zu einem Zeitpunkt eine Aktion ausführen darf. Innerhalb dieses Prozesses maximiert jeder Agent seine Wertfunktion unter Berücksichtigung der Aktionen der vorherigen Agenten im Inferenzstadium. Im Lernprozess minimiert jeder Agent den TD-Fehler, der davon abhängt, wie die nachfolgenden Agenten auf die gewählte Aktion reagiert haben. Aufgrund der bidirektionalen Abhängigkeitsstruktur transformiert ACE ein Multi-Agenten-MDP effektiv in ein Einzel-Agenten-MDP. Wir implementieren den ACE-Framework, indem wir eine geeignete Netzwerkrepräsentation identifizieren, um die Aktionenabhängigkeit zu formulieren, sodass der sequenzielle Entscheidungsprozess implizit in einem einzigen Vorwärtsdurchlauf berechnet wird. Um ACE zu validieren, vergleichen wir es mit starken Baselines auf zwei MARL-Benchmarks. Empirische Experimente zeigen, dass ACE die derzeit besten Algorithmen auf Google Research Football und StarCraft Multi-Agent Challenge mit einem erheblichen Abstand schlägt. Insbesondere erreicht ACE auf den SMAC-Aufgaben eine Erfolgsquote von 100 % auf fast allen schwierigen und extrem schwierigen Karten. Wir untersuchen zudem umfassende Forschungsfragen im Zusammenhang mit ACE, darunter Erweiterbarkeit, Generalisierbarkeit und Praktikabilität. Der Quellcode wird zur Förderung weiterer Forschung bereitgestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp