HyperAIHyperAI

Command Palette

Search for a command to run...

Contingenzbewusste Erkundung im Reinforcement Learning

Jongwook Choi Yijie Guo Marcin Moczulski Junhyuk Oh Neal Wu Mohammad Norouzi Honglak Lee

Zusammenfassung

Diese Arbeit untersucht, ob das Erlernen von Kontingenzbewusstsein und steuerbaren Aspekten einer Umgebung zu einer besseren Exploration im Reinforcement Learning führen kann. Um diese Frage zu beantworten, betrachten wir eine Instanz dieser Hypothese, die auf dem Arcade Learning Environment (ALE) evaluiert wurde. In dieser Studie entwickeln wir ein aufmerksamkeitsgesteuertes Dynamikmodell (ADM), das steuerbare Elemente der Beobachtungen entdeckt, die häufig mit der Position des Charakters in Atari-Spielen in Zusammenhang stehen. Das ADM wird in selbstüberwachter Weise trainiert, um die vom Agenten unternommenen Aktionen vorherzusagen. Die gelernten Kontingenzinformationen werden als Teil der Zustandsrepräsentation für Explorationszwecke verwendet. Wir zeigen, dass die Kombination eines Actor-Critic-Algorithmus mit zählbasierten Explorationsmethoden unter Verwendung unserer Repräsentation beeindruckende Ergebnisse in einer Reihe besonders schwieriger Atari-Spiele erzielt, insbesondere aufgrund dünn besetzter Belohnungen. Zum Beispiel berichten wir über einen Stand-der-Kunst-Score von >11.000 Punkten bei Montezuma's Revenge ohne den Einsatz von Expertendemonstrationen, expliziten hochstufigen Informationen (z.B., RAM-Zustände) oder Aufsichtsdaten. Unsere Experimente bestätigen, dass das Kontingenzbewusstsein tatsächlich ein äußerst mächtiges Konzept zur Bewältigung von Explorationsproblemen im Reinforcement Learning ist und interessante Forschungsfragen für weitere Untersuchungen aufwirft.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Contingenzbewusste Erkundung im Reinforcement Learning | Paper | HyperAI