Nie aufgeben: Lernen von gerichteten Erkundungsstrategien

Wir schlagen einen Verstärkungslern-Agenten vor, um schwierige Explorationsspiele zu lösen, indem er eine Vielzahl gerichteter Erkundungspolitiken lernt. Wir konstruieren eine episodische, auf dem Gedächtnis basierende intrinsische Belohnung, die mithilfe der k-nächsten-Nachbarn über die jüngsten Erfahrungen des Agents arbeitet, um die gerichteten Erkundungspolitiken zu trainieren, wodurch der Agent dazu angeregt wird, alle Zustände seiner Umgebung wiederholt aufzusuchen. Ein selbstüberwachtes inverse Dynamikmodell wird verwendet, um die Embeddings für die Nachbar-Suche zu trainieren und das Neuigkeits-Signal dahingehend zu beeinflussen, was der Agent kontrollieren kann. Wir nutzen den Rahmen von Universal Value Function Approximators (UVFA), um gleichzeitig viele gerichtete Erkundungspolitiken mit demselben neuronalen Netzwerk zu lernen, wobei unterschiedliche Kompromisse zwischen Exploration und Exploitation realisiert werden. Durch die Verwendung desselben neuronalen Netzwerks für unterschiedliche Grade von Exploration/Exploitation wird der Transfer von überwiegend explorativen Politiken zu effektiven exploitativen Politiken demonstriert. Der vorgeschlagene Ansatz kann nahtlos in moderne verteilte RL-Agenten integriert werden, die große Mengen an Erfahrungen sammeln, indem viele Akteure parallel auf separaten Umgebungsinstanzen laufen. Unser Verfahren verdoppelt die Leistung des Basis-Agenten bei allen schwierigen Explorationsspielen der Atari-57-Suite, während gleichzeitig eine sehr hohe Bewertung bei den verbleibenden Spielen beibehalten wird, wodurch ein medianer, menschlich normalisierter Score von 1344,0 % erreicht wird. Besonders bemerkenswert ist, dass der vorgeschlagene Ansatz der erste Algorithmus ist, der in dem Spiel Pitfall! ohne Verwendung von Demonstrationen oder handgefertigten Merkmalen nicht-null Belohnungen erzielt (mit einem Durchschnittswert von 8.400).