HyperAIHyperAI

Command Palette

Search for a command to run...

Zuerst zurückkehren, dann erkunden

Adrien Ecoffet Joost Huizinga Joel Lehman Kenneth O. Stanley Jeff Clune

Zusammenfassung

Der Versprechen der Verstärkungslernens (Reinforcement Learning) besteht darin, komplexe sequenzielle Entscheidungsprobleme autonom zu lösen, indem lediglich eine hochwertige Belohnungsfunktion spezifiziert wird. Doch Verstärkungslernalgorithmen stoßen oft an ihre Grenzen, wenn – wie häufig der Fall – einfache und intuitive Belohnungen nur spärliche und irreführende Rückmeldungen liefern. Um diese Fallen zu vermeiden, ist eine gründliche Exploration der Umgebung erforderlich; die Entwicklung von Algorithmen, die dies effektiv bewerkstelligen können, bleibt jedoch eine zentrale Herausforderung des Feldes. Wir vermuten, dass der Hauptgrund für ineffektive Exploration in Algorithmen liegt, die vergessen, wie sie zu zuvor besuchten Zuständen zurückkehren können („Detachment“), und in der Fähigkeit, einen Zustand erst wieder zu erreichen, bevor von ihm aus exploriert wird („Derailment“). Wir stellen Go-Explore vor, eine Familie von Algorithmen, die diese beiden Herausforderungen direkt durch zwei einfache Prinzipien adressiert: die explizite Speicherung von vielversprechenden Zuständen und die vorherige Rückkehr zu solchen Zuständen, bevor gezielt exploriert wird. Go-Explore löst sämtliche bisher ungelösten Atari-Spiele und übertrifft den Stand der Technik bei allen schwierigen Exploration-Aufgaben, wobei die Verbesserungen bei den herausfordernden Großaufgaben Montezuma’s Revenge und Pitfall um mehrere Größenordnungen liegen. Zudem zeigen wir die praktische Relevanz von Go-Explore an einem Sparse-Reward-Aufgabenfeld für Roboter, bei dem ein Gegenstand aufgenommen und platziert werden muss. Außerdem belegen wir, dass die Integration einer zielbedingten Politik die Explorationseffizienz von Go-Explore weiter steigern und es ermöglichen kann, Stochastizität während des gesamten Trainings zu bewältigen. Die erheblichen Leistungssteigerungen durch Go-Explore deuten darauf hin, dass die einfachen Prinzipien, Zustände zu merken, zu ihnen zurückzukehren und von ihnen aus zu explorieren, eine leistungsfähige und allgemeingültige Strategie für Exploration darstellen – ein Erkenntnis, das entscheidend für die Entwicklung wirklich intelligenter Lernagenten sein könnte.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zuerst zurückkehren, dann erkunden | Paper | HyperAI