HyperAIHyperAI
vor 2 Monaten

Go-Explore: Ein neuer Ansatz für schwierige Explorationsprobleme

Adrien Ecoffet; Joost Huizinga; Joel Lehman; Kenneth O. Stanley; Jeff Clune
Go-Explore: Ein neuer Ansatz für schwierige Explorationsprobleme
Abstract

Eine große Herausforderung im Bereich des Reinforcement Learnings ist die intelligente Exploration, insbesondere wenn Belohnungen spärlich oder irreführend sind. Zwei Atari-Spiele dienen als Benchmarks für solche Domains mit schwieriger Exploration: Montezuma's Revenge und Pitfall. In beiden Spielen erzielen aktuelle RL-Algorithmen schlechte Ergebnisse, auch solche mit intrinsischer Motivation, die die vorherrschende Methode zur Leistungssteigerung in Domains mit schwieriger Exploration darstellt. Um diese Mängel zu beheben, stellen wir einen neuen Algorithmus namens Go-Explore vor. Dieser nutzt folgende Prinzipien: (1) Erinnere sich an zuvor besuchte Zustände, (2) kehre zunächst in einen vielversprechenden Zustand zurück (ohne Exploration), und erkunde dann von dort aus, sowie (3) löse simulierte Umgebungen durch alle verfügbaren Mittel (einschließlich der Einführung von Determinismus), und robustifiziere anschließend durch Imitationslernen. Die kombinierte Wirkung dieser Prinzipien führt zu einem drastischen Leistungsanstieg bei Problemen mit schwieriger Exploration. Bei Montezuma's Revenge erreicht Go-Explore einen Durchschnittswert von über 43.000 Punkten, was fast viermal so hoch ist wie der bisherige Stand der Technik. Go-Explore kann zudem menschliches Fachwissen nutzen und erzielt bei Verwendung dieses Wissens auf Montezuma's Revenge einen Durchschnittswert von über 650.000 Punkten. Seine maximale Leistung von fast 18 Millionen übertreffen den menschlichen Weltrekord und entspricht sogar der strengsten Definition von „übermenschlicher“ Leistung. Bei Pitfall ist Go-Explore mit Fachwissen der erste Algorithmus, der mehr als null Punkte erreicht. Sein Durchschnittswert von fast 60.000 Punkten übertrifft das Niveau von Expertenmenschen. Da Go-Explore hocheffektive Demonstrationen automatisch und kostengünstig erstellt, übertrifft es auch Arbeiten im Bereich des Imitationslearnings, bei denen Menschen Lösungsdemonstrationen bereitstellen. Go-Explore öffnet viele neue Forschungsrichtungen zur Verbesserung des Algorithmus und zur Integration seiner Erkenntnisse in aktuelle RL-Algorithmen. Es könnte außerdem Fortschritte bei bisher unlösbaren Problemen mit schwieriger Exploration in vielen Bereichen ermöglichen, insbesondere in solchen, die während des Trainings einen Simulator nutzen (z.B. Robotik).