Wert-Zerlegungs-Netzwerke für kooperatives Mehragentenlernen

Wir untersuchen das Problem der kooperativen Mehragenten-Reinforcement-Learning mit einem einzigen gemeinsamen Belohnungssignal. Diese Klasse von Lernproblemen ist schwierig aufgrund der oft großen kombinierten Aktion- und Beobachtungsräume. In den voll zentralisierten und dezentralisierten Ansätzen identifizieren wir das Problem der irreführenden Belohnungen sowie ein Phänomen, das wir als das "faule Agent"-Problem bezeichnen, welches durch partielle Beobachtbarkeit entsteht. Wir lösen diese Probleme, indem wir einzelne Agenten mit einer neuartigen Netzarchitektur zur Wertezerlegung trainieren, die lernt, die Team-Wertefunktion in agentenspezifische Wertefunktionen zu zerlegen. Wir führen eine experimentelle Auswertung in verschiedenen teilbeobachtbaren Mehragentendomains durch und zeigen, dass das Lernen solcher Wertezerlegungen zu überlegenen Ergebnissen führt, insbesondere wenn es mit Gewichteteilung, Rolleninformationen und Informationskanälen kombiniert wird.