Contingenzbewusste Erkundung im Reinforcement Learning

Diese Arbeit untersucht, ob das Erlernen von Kontingenzbewusstsein und steuerbaren Aspekten einer Umgebung zu einer besseren Exploration im Reinforcement Learning führen kann. Um diese Frage zu beantworten, betrachten wir eine Instanz dieser Hypothese, die auf dem Arcade Learning Environment (ALE) evaluiert wurde. In dieser Studie entwickeln wir ein aufmerksamkeitsgesteuertes Dynamikmodell (ADM), das steuerbare Elemente der Beobachtungen entdeckt, die häufig mit der Position des Charakters in Atari-Spielen in Zusammenhang stehen. Das ADM wird in selbstüberwachter Weise trainiert, um die vom Agenten unternommenen Aktionen vorherzusagen. Die gelernten Kontingenzinformationen werden als Teil der Zustandsrepräsentation für Explorationszwecke verwendet. Wir zeigen, dass die Kombination eines Actor-Critic-Algorithmus mit zählbasierten Explorationsmethoden unter Verwendung unserer Repräsentation beeindruckende Ergebnisse in einer Reihe besonders schwieriger Atari-Spiele erzielt, insbesondere aufgrund dünn besetzter Belohnungen. Zum Beispiel berichten wir über einen Stand-der-Kunst-Score von >11.000 Punkten bei Montezuma's Revenge ohne den Einsatz von Expertendemonstrationen, expliziten hochstufigen Informationen (z.B., RAM-Zustände) oder Aufsichtsdaten. Unsere Experimente bestätigen, dass das Kontingenzbewusstsein tatsächlich ein äußerst mächtiges Konzept zur Bewältigung von Explorationsproblemen im Reinforcement Learning ist und interessante Forschungsfragen für weitere Untersuchungen aufwirft.