vor 6 Monaten

Zusammenfassung

Multi-Agent-Reinforcement-Learning (MARL) leidet unter dem Problem der Nichtstationarität, das sich daraus ergibt, dass die Zielvorgaben bei jeder Iteration ständig wechseln, wenn mehrere Agenten gleichzeitig ihre Politiken aktualisieren. Ausgehend von ersten Prinzipien lösen wir dieses Problem in diesem Paper, indem wir bidirektionales actionsabhängiges Q-Lernen (ACE) einführen. Zentral für die Entwicklung von ACE ist der sequenzielle Entscheidungsprozess, bei dem jeweils nur ein Agent zu einem Zeitpunkt eine Aktion ausführen darf. Innerhalb dieses Prozesses maximiert jeder Agent seine Wertfunktion unter Berücksichtigung der Aktionen der vorherigen Agenten im Inferenzstadium. Im Lernprozess minimiert jeder Agent den TD-Fehler, der davon abhängt, wie die nachfolgenden Agenten auf die gewählte Aktion reagiert haben. Aufgrund der bidirektionalen Abhängigkeitsstruktur transformiert ACE ein Multi-Agenten-MDP effektiv in ein Einzel-Agenten-MDP. Wir implementieren den ACE-Framework, indem wir eine geeignete Netzwerkrepräsentation identifizieren, um die Aktionenabhängigkeit zu formulieren, sodass der sequenzielle Entscheidungsprozess implizit in einem einzigen Vorwärtsdurchlauf berechnet wird. Um ACE zu validieren, vergleichen wir es mit starken Baselines auf zwei MARL-Benchmarks. Empirische Experimente zeigen, dass ACE die derzeit besten Algorithmen auf Google Research Football und StarCraft Multi-Agent Challenge mit einem erheblichen Abstand schlägt. Insbesondere erreicht ACE auf den SMAC-Aufgaben eine Erfolgsquote von 100 % auf fast allen schwierigen und extrem schwierigen Karten. Wir untersuchen zudem umfassende Forschungsfragen im Zusammenhang mit ACE, darunter Erweiterbarkeit, Generalisierbarkeit und Praktikabilität. Der Quellcode wird zur Förderung weiterer Forschung bereitgestellt.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ACE: Kooperatives mehragentenbasiertes Q-Lernen mit bidirektionaler Aktionsabhängigkeit

Chuming Li Jie Liu Yinmin Zhang Yuhong Wei Yazhe Niu Yaodong Yang Yu Liu Wanli Ouyang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters