Zuerst zurückkehren, dann erkunden

Der Versprechen der Verstärkungslernens (Reinforcement Learning) besteht darin, komplexe sequenzielle Entscheidungsprobleme autonom zu lösen, indem lediglich eine hochwertige Belohnungsfunktion spezifiziert wird. Doch Verstärkungslernalgorithmen stoßen oft an ihre Grenzen, wenn – wie häufig der Fall – einfache und intuitive Belohnungen nur spärliche und irreführende Rückmeldungen liefern. Um diese Fallen zu vermeiden, ist eine gründliche Exploration der Umgebung erforderlich; die Entwicklung von Algorithmen, die dies effektiv bewerkstelligen können, bleibt jedoch eine zentrale Herausforderung des Feldes. Wir vermuten, dass der Hauptgrund für ineffektive Exploration in Algorithmen liegt, die vergessen, wie sie zu zuvor besuchten Zuständen zurückkehren können („Detachment“), und in der Fähigkeit, einen Zustand erst wieder zu erreichen, bevor von ihm aus exploriert wird („Derailment“). Wir stellen Go-Explore vor, eine Familie von Algorithmen, die diese beiden Herausforderungen direkt durch zwei einfache Prinzipien adressiert: die explizite Speicherung von vielversprechenden Zuständen und die vorherige Rückkehr zu solchen Zuständen, bevor gezielt exploriert wird. Go-Explore löst sämtliche bisher ungelösten Atari-Spiele und übertrifft den Stand der Technik bei allen schwierigen Exploration-Aufgaben, wobei die Verbesserungen bei den herausfordernden Großaufgaben Montezuma’s Revenge und Pitfall um mehrere Größenordnungen liegen. Zudem zeigen wir die praktische Relevanz von Go-Explore an einem Sparse-Reward-Aufgabenfeld für Roboter, bei dem ein Gegenstand aufgenommen und platziert werden muss. Außerdem belegen wir, dass die Integration einer zielbedingten Politik die Explorationseffizienz von Go-Explore weiter steigern und es ermöglichen kann, Stochastizität während des gesamten Trainings zu bewältigen. Die erheblichen Leistungssteigerungen durch Go-Explore deuten darauf hin, dass die einfachen Prinzipien, Zustände zu merken, zu ihnen zurückzukehren und von ihnen aus zu explorieren, eine leistungsfähige und allgemeingültige Strategie für Exploration darstellen – ein Erkenntnis, das entscheidend für die Entwicklung wirklich intelligenter Lernagenten sein könnte.