HyperAIHyperAI
vor 2 Monaten

Count-basierte Exploration im Merkmalsraum für Reinforcement Learning

Jarryd Martin; Suraj Narayanan Sasikumar; Tom Everitt; Marcus Hutter
Count-basierte Exploration im Merkmalsraum für Reinforcement Learning
Abstract

Wir stellen einen neuen zählerbasierten Optimismus-Explorationsalgorithmus für das Reinforcement Learning (RL) vor, der in Umgebungen mit hochdimensionalen Zustands-Aktionsräumen anwendbar ist. Der Erfolg von RL-Algorithmen in diesen Bereichen hängt entscheidend von der Verallgemeinerung aufgrund begrenzter Trainingsdaten ab. Funktionenapproximationsmethoden ermöglichen es RL-Agenten, zu verallgemeinern, um den Wert unbesuchter Zustände zu schätzen. Derzeit sind jedoch nur wenige Methoden in der Lage, die Unsicherheit zu verallgemeinern. Dies hat bisher die Kombination skalierbarer RL-Algorithmen mit effizienten Explorationsstrategien verhindert, die den Agenten dazu anhalten, seine Unsicherheit zu reduzieren. Wir präsentieren eine neue Methode zur Berechnung einer verallgemeinerten Zustandsbesuchsanzahl, die es dem Agenten ermöglicht, die Unsicherheit eines beliebigen Zustands abzuschätzen. Unser ϕ-Pseudocount erreicht Verallgemeinerung durch die Nutzung derselben Merkmalsrepräsentation des Zustandsraums, die für die Approximation der Wertfunktion verwendet wird. Zustände mit seltener beobachteten Merkmalen werden als unsicherer eingestuft. Der ϕ-Exploration-Bonus-Algorithmus belohnt den Agenten für das Erkunden im Merkmalsraum anstatt im nicht transformierten Zustandsraum. Die Methode ist einfacher und weniger rechenintensiv als einige frühere Vorschläge und erzielt nahezu standesgemäße Ergebnisse bei hochdimensionalen RL-Benchmarks.