Entkoppelung der Quellen von Risiko für verteilte Multi-Agenten-Verstärkungslernverfahren

In der kooperativen mehragentenbasierten Verstärkungslernung können Zustandsübergänge, Belohnungen und Aktionen alle Zufälligkeit (bzw. Unsicherheit) in den beobachteten langfristigen Erträgen verursachen. Diese Zufälligkeiten spiegeln sich in zwei Risikofaktoren wider: (a) agentenbezogenes Risiko (d. h. wie kooperativ unsere Teammitglieder für einen gegebenen Agenten agieren) und (b) umweltbezogenes Risiko (d. h. Stochastizität der Übergänge). Obwohl beide Quellen für die Entwicklung robuster Politiken entscheidend sind, trennen bisherige Ansätze diese nicht voneinander oder berücksichtigen nur eine einzelne Risikofaktorquelle, was zu suboptimalen Gleichgewichten führen kann. In diesem Paper stellen wir DRIMA (Disentangled RIsk-sensitive Multi-Agent reinforcement learning) vor, einen neuartigen Rahmen, der in der Lage ist, Risikofaktoren zu entkoppeln. Unser zentrales Konzept besteht darin, Risikostufen (d. h. Quantile) sowohl bei zentraler Training als auch dezentraler Ausführung mittels einer hierarchischen Quantilstruktur und Quantilregression zu trennen. Unsere Experimente zeigen, dass DRIMA in verschiedenen Szenarien der StarCraft Multi-Agent Challenge deutlich besser abschneidet als vorherige Ansätze. Besonders hervorzuheben ist, dass DRIMA robuste Leistung erbringt, unabhängig von der Belohnungsformulierung und dem Erkundungsplan – im Gegensatz zu früheren Methoden, die lediglich eine suboptimale Politik erlernen.