HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration basierend auf Zählen mit der Nachfolgerrepräsentation

Marlos C. Machado Marc G. Bellemare Michael Bowling

Zusammenfassung

In dieser Arbeit stellen wir einen einfachen Ansatz für die Exploration im Reinforcement Learning (RL) vor, der es uns ermöglicht, theoretisch fundierte Algorithmen im tabellarischen Fall zu entwickeln, aber auch auf Szenarien erweiterbar ist, in denen Funktionsapproximation erforderlich ist. Unser Ansatz basiert auf der Nachfolgerrepräsentation (SR), die ursprünglich als eine Repräsentation eingeführt wurde, die Zustandsverallgemeinerung durch die Ähnlichkeit von Nachfolgezuständen definiert. Hier zeigen wir, dass die Norm der SR während des Lernprozesses als Belohnungsbonus verwendet werden kann, um Exploration zu fördern. Um dieses vorübergehende Verhalten der Norm der SR besser zu verstehen, führen wir die sub-stochastische Nachfolgerrepräsentation (SSR) ein und zeigen, dass sie implizit die Anzahl der Male zählt, wie oft jeder Zustand (oder jede Eigenschaft) beobachtet wurde. Wir nutzen dieses Ergebnis, um einen Algorithmus einzuführen, der sich vergleichbar gut wie einige theoretisch stichproben-effiziente Ansätze verhält. Schließlich erweitern wir diese Ideen auf einen tiefen RL-Algorithmus und zeigen, dass er in einem Regime mit niedriger Stichprobenkomplexität den Stand der Technik in Atari 2600-Spielen erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp