Groß angelegte Studie zum lerngetriebenen Interesse

Verstärkungslernalgorithmen basieren auf sorgfältig gestalteten Umgebungsbelohnungen, die dem Agenten außerhalb seiner internen Motivation zukommen. Allerdings ist das manuelle Annotieren jeder Umgebung mit dicht verteilten, von Hand entworfenen Belohnungen nicht skalierbar, was die Notwendigkeit zur Entwicklung von Belohnungsfunktionen unterstreicht, die dem Agenten intrinsisch sind. Neugier ist eine Art intrinsischer Belohnungsfunktion, die den Vorhersagefehler als Belohnungssignal verwendet. In dieser Arbeit: (a) Führen wir die erste umfangreiche Studie rein neugiergesteuerten Lernens durch, d.h. ohne jede außerintrinsische Belohnung, über 54 Standard-Benchmark-Umgebungen hinweg, darunter der Atari-Spiel-Suite. Unsere Ergebnisse zeigen überraschend gute Leistungen und einen hohen Grad an Übereinstimmung zwischen dem intrinsischen Neugierziel und den von Hand entworfenen außerintrinsischen Belohnungen vieler Spielszenarien. (b) Untersuchen wir den Einfluss verschiedener Merkmalsräume bei der Berechnung des Vorhersagefehlers und zeigen, dass zufällige Merkmale für viele gängige RL-Spielbenchmarks ausreichend sind, aber gelernte Merkmale besser generalisieren (z.B. auf neue Spielstufen in Super Mario Bros.). (c) Wir demonstrieren die Grenzen vorhersagebasierter Belohnungen in stochastischen Szenarien. Videos der Spielsessions und der Quellcode sind unter https://pathak22.github.io/large-scale-curiosity/ zu finden.