HyperAIHyperAI
vor 2 Monaten

Exploration: Eine Studie zur zählerbasierten Exploration für Deep Reinforcement Learning

Haoran Tang; Rein Houthooft; Davis Foote; Adam Stooke; Xi Chen; Yan Duan; John Schulman; Filip De Turck; Pieter Abbeel
Exploration: Eine Studie zur zählerbasierten Exploration für Deep Reinforcement Learning
Abstract

Zählungsbasierte Erkundungsalgorithmen sind dafür bekannt, nahezu optimal zu performen, wenn sie in Verbindung mit tabellarischen Reinforcement-Learning-(RL)-Methoden zur Lösung kleiner diskreter Markov-Entscheidungsprozesse (MDPs) eingesetzt werden. Allgemein wird angenommen, dass zählungsbasierte Methoden nicht in hochdimensionalen Zustandsräumen angewendet werden können, da die meisten Zustände nur einmal auftreten. Kürzlich entwickelte tiefgreifende RL-Erkundungsstrategien können durch komplexe Heuristiken mit hochdimensionalen kontinuierlichen Zustandsräumen umgehen, wobei sie häufig auf Optimismus bei Unsicherheit oder intrinsische Motivation zurückgreifen. In dieser Arbeit beschreiben wir eine überraschende Erkenntnis: Eine einfache Verallgemeinerung des klassischen zählungsbasierten Ansatzes kann nahezu den Stand der Technik erreichende Leistungen auf verschiedenen hochdimensionalen und/oder kontinuierlichen tiefgreifenden RL-Benchmarks erzielen. Zustände werden auf Hashcodes abgebildet, was es ermöglicht, ihre Auftreten mit einer Hashtabelle zu zählen. Diese Zahlen werden dann verwendet, um einen Bonuslohn gemäß der klassischen Theorie der zählungsbasierten Erkundung zu berechnen. Wir stellen fest, dass einfache Hashfunktionen auf vielen anspruchsvollen Aufgaben überraschend gute Ergebnisse erzielen können. Darüber hinaus zeigen wir, dass ein domänenabhängiger gelernter Hashcode diese Ergebnisse möglicherweise weiter verbessern kann. Eine detaillierte Analyse enthüllt wichtige Aspekte einer guten Hashfunktion: 1) die passende Granularität und 2) die Kodierung von Informationen, die für die Lösung des MDP relevant sind. Diese Erkundungsstrategie erreicht nahezu den Stand der Technik erreichende Leistungen sowohl bei kontinuierlichen Kontrollaufgaben als auch bei Atari 2600-Spielen und bietet somit eine einfache aber mächtige Baseline für die Lösung von MDPs, die eine beträchtliche Erkundung erfordern.