Reduzierung der Überbewertungsverzerrung in Multi-Agenten-Domänen mittels doppelter zentraler Kritiker

Viele Aufgaben in der realen Welt erfordern die Zusammenarbeit mehrerer Agenten. In den letzten Jahren wurden mehragentenbasierte Methoden des Verstärkungslernens (Reinforcement Learning, RL) vorgeschlagen, um solche Aufgaben zu lösen, doch zeigen derzeitige Ansätze oft eine ineffiziente Lernleistung hinsichtlich der Politiken. Wir untersuchen daher, ob ein bekannter Schwachpunkt des Einzelagenten-RL – die Überbewertung der Wertfunktion (value function overestimation bias) – auch im mehragentenbasierten Kontext auftritt. Auf Basis unserer Erkenntnisse schlagen wir einen Ansatz vor, der diesen Bias durch die Verwendung von doppelten zentralisierten Kritikern reduziert. Wir evaluieren unsere Methode an sechs Aufgaben mit gemischten kooperativen und kompetitiven Dynamiken und zeigen, dass sie gegenüber aktuellen Methoden erhebliche Vorteile bietet. Schließlich untersuchen wir die Anwendung mehragentenbasierter Ansätze auf hochdimensionale robotische Aufgaben und zeigen, dass unser Ansatz zur Lernung dezentraler Politiken in diesem Bereich eingesetzt werden kann.