DisCor: Korrektive Rückmeldung im Verstärkungslernen durch Verteilungskorrektur

Tiefes Verstärkendes Lernen kann effektive Politiken für eine Vielzahl von Aufgaben erlernen, ist jedoch aufgrund von Instabilität und Empfindlichkeit gegenüber Hyperparametern bekanntermaßen schwer zu nutzen. Die Gründe hierfür bleiben unklar. Bei der Verwendung standardisierter überwachter Methoden (z. B. für Banditen) liefert die Datensammlung im Sinne der aktuellen Politik „harte Negative“, die das Modell genau in jenen Zuständen und Aktionen korrigieren, in denen die Politik wahrscheinlich zu sein wird. Wir bezeichnen dieses Phänomen als „korrektive Rückmeldung“. Wir zeigen, dass Q-Lernverfahren, die auf Bootstrapping basieren, nicht zwangsläufig von dieser korrektiven Rückmeldung profitieren, und dass die Nutzung der durch den Algorithmus gesammelten Erfahrungen nicht ausreicht, um Fehler in der Q-Funktion zu korrigieren. Tatsächlich können Q-Lernverfahren und verwandte Methoden pathologische Wechselwirkungen zwischen der Verteilung der durch das Agens gesammelten Erfahrungen und der durch das Training auf diesen Erfahrungen induzierten Politik zeigen, was zu möglicher Instabilität, suboptimaler Konvergenz und schlechten Ergebnissen führen kann, insbesondere bei der Lernung aus verrauschten, spärlichen oder verzögerten Belohnungen. Wir demonstrieren die Existenz dieses Problems sowohl theoretisch als auch empirisch. Anschließend zeigen wir, dass eine spezifische Korrektur der Datensammlungsverteilung dieses Problem mildern kann. Auf der Grundlage dieser Beobachtungen schlagen wir einen neuen Algorithmus, DisCor, vor, der eine Näherung an diese optimale Verteilung berechnet und sie nutzt, um die Transitionsdaten für das Training neu zu gewichten. Dies führt zu erheblichen Verbesserungen in einer Reihe herausfordernder RL-Szenarien, wie beispielsweise Multi-Task-Lernen und Lernen aus verrauschten Belohnungssignalen. Eine Blog-Post-Zusammenfassung dieser Arbeit ist unter folgender Adresse verfügbar: https://bair.berkeley.edu/blog/2020/03/16/discor/.