HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration: Eine Studie zur zählerbasierten Exploration für Deep Reinforcement Learning

Haoran Tang extsuperscript1,* Rein Houthooft extsuperscript3,4,* Davis Foote extsuperscript2 Adam Stooke extsuperscript2 Xi Chen extsuperscript2† Yan Duan extsuperscript2† John Schulman extsuperscript4 Filip De Turck extsuperscript3 Pieter Abbeel extsuperscript2†

Zusammenfassung

Zählungsbasierte Erkundungsalgorithmen sind dafür bekannt, nahezu optimal zu performen, wenn sie in Verbindung mit tabellarischen Reinforcement-Learning-(RL)-Methoden zur Lösung kleiner diskreter Markov-Entscheidungsprozesse (MDPs) eingesetzt werden. Allgemein wird angenommen, dass zählungsbasierte Methoden nicht in hochdimensionalen Zustandsräumen angewendet werden können, da die meisten Zustände nur einmal auftreten. Kürzlich entwickelte tiefgreifende RL-Erkundungsstrategien können durch komplexe Heuristiken mit hochdimensionalen kontinuierlichen Zustandsräumen umgehen, wobei sie häufig auf Optimismus bei Unsicherheit oder intrinsische Motivation zurückgreifen. In dieser Arbeit beschreiben wir eine überraschende Erkenntnis: Eine einfache Verallgemeinerung des klassischen zählungsbasierten Ansatzes kann nahezu den Stand der Technik erreichende Leistungen auf verschiedenen hochdimensionalen und/oder kontinuierlichen tiefgreifenden RL-Benchmarks erzielen. Zustände werden auf Hashcodes abgebildet, was es ermöglicht, ihre Auftreten mit einer Hashtabelle zu zählen. Diese Zahlen werden dann verwendet, um einen Bonuslohn gemäß der klassischen Theorie der zählungsbasierten Erkundung zu berechnen. Wir stellen fest, dass einfache Hashfunktionen auf vielen anspruchsvollen Aufgaben überraschend gute Ergebnisse erzielen können. Darüber hinaus zeigen wir, dass ein domänenabhängiger gelernter Hashcode diese Ergebnisse möglicherweise weiter verbessern kann. Eine detaillierte Analyse enthüllt wichtige Aspekte einer guten Hashfunktion: 1) die passende Granularität und 2) die Kodierung von Informationen, die für die Lösung des MDP relevant sind. Diese Erkundungsstrategie erreicht nahezu den Stand der Technik erreichende Leistungen sowohl bei kontinuierlichen Kontrollaufgaben als auch bei Atari 2600-Spielen und bietet somit eine einfache aber mächtige Baseline für die Lösung von MDPs, die eine beträchtliche Erkundung erfordern.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp