HyperAIHyperAI

Command Palette

Search for a command to run...

Groß angelegte Studie zum lerngetriebenen Interesse

Zusammenfassung

Verstärkungslernalgorithmen basieren auf sorgfältig gestalteten Umgebungsbelohnungen, die dem Agenten außerhalb seiner internen Motivation zukommen. Allerdings ist das manuelle Annotieren jeder Umgebung mit dicht verteilten, von Hand entworfenen Belohnungen nicht skalierbar, was die Notwendigkeit zur Entwicklung von Belohnungsfunktionen unterstreicht, die dem Agenten intrinsisch sind. Neugier ist eine Art intrinsischer Belohnungsfunktion, die den Vorhersagefehler als Belohnungssignal verwendet. In dieser Arbeit: (a) Führen wir die erste umfangreiche Studie rein neugiergesteuerten Lernens durch, d.h. ohne jede außerintrinsische Belohnung, über 54 Standard-Benchmark-Umgebungen hinweg, darunter der Atari-Spiel-Suite. Unsere Ergebnisse zeigen überraschend gute Leistungen und einen hohen Grad an Übereinstimmung zwischen dem intrinsischen Neugierziel und den von Hand entworfenen außerintrinsischen Belohnungen vieler Spielszenarien. (b) Untersuchen wir den Einfluss verschiedener Merkmalsräume bei der Berechnung des Vorhersagefehlers und zeigen, dass zufällige Merkmale für viele gängige RL-Spielbenchmarks ausreichend sind, aber gelernte Merkmale besser generalisieren (z.B. auf neue Spielstufen in Super Mario Bros.). (c) Wir demonstrieren die Grenzen vorhersagebasierter Belohnungen in stochastischen Szenarien. Videos der Spielsessions und der Quellcode sind unter https://pathak22.github.io/large-scale-curiosity/ zu finden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Groß angelegte Studie zum lerngetriebenen Interesse | Paper | HyperAI