Mehragenten-Aktor-Kritiker für gemischt kooperative-wettbewerbsorientierte Umgebungen

Wir untersuchen Methoden des tiefen Reinforcement Learnings für Mehragentensysteme. Zunächst analysieren wir die Herausforderungen traditioneller Algorithmen im Mehragentenszenario: Q-Lernen wird durch die inhärente Nichtstationarität der Umgebung beeinträchtigt, während Policy-Gradienten von einer Varianz belastet sind, die mit zunehmender Anzahl von Agenten ansteigt. Anschließend stellen wir eine Anpassung der Actor-Critic-Methoden vor, die die Aktionspolitiken anderer Agenten berücksichtigt und erfolgreich Politiken erlernen kann, die komplexe Koordination zwischen mehreren Agenten erfordern. Darüber hinaus führen wir ein Trainingsregime ein, das Ensemble-Politiken für jeden Agenten nutzt und zu robusteren Mehragentenpolitiken führt. Wir demonstrieren die Stärken unseres Ansatzes im Vergleich zu bestehenden Methoden sowohl in kooperativen als auch in kompetitiven Szenarien, bei denen Agentenpopulationen verschiedene physikalische und informatorische Koordinationsstrategien entdecken können.