Exploration basierend auf Zählen mit der Nachfolgerrepräsentation

In dieser Arbeit stellen wir einen einfachen Ansatz für die Exploration im Reinforcement Learning (RL) vor, der es uns ermöglicht, theoretisch fundierte Algorithmen im tabellarischen Fall zu entwickeln, aber auch auf Szenarien erweiterbar ist, in denen Funktionsapproximation erforderlich ist. Unser Ansatz basiert auf der Nachfolgerrepräsentation (SR), die ursprünglich als eine Repräsentation eingeführt wurde, die Zustandsverallgemeinerung durch die Ähnlichkeit von Nachfolgezuständen definiert. Hier zeigen wir, dass die Norm der SR während des Lernprozesses als Belohnungsbonus verwendet werden kann, um Exploration zu fördern. Um dieses vorübergehende Verhalten der Norm der SR besser zu verstehen, führen wir die sub-stochastische Nachfolgerrepräsentation (SSR) ein und zeigen, dass sie implizit die Anzahl der Male zählt, wie oft jeder Zustand (oder jede Eigenschaft) beobachtet wurde. Wir nutzen dieses Ergebnis, um einen Algorithmus einzuführen, der sich vergleichbar gut wie einige theoretisch stichproben-effiziente Ansätze verhält. Schließlich erweitern wir diese Ideen auf einen tiefen RL-Algorithmus und zeigen, dass er in einem Regime mit niedriger Stichprobenkomplexität den Stand der Technik in Atari 2600-Spielen erreicht.