HyperAIHyperAI

Command Palette

Search for a command to run...

Prozedurale Generalisierung durch Planung mit selbstüberwachten Weltmodellen

Ankesh Anand Jacob Walker Yazhe Li Eszter Vértes Julian Schrittwieser Sherjil Ozair Théophane Weber Jessica B. Hamrick

Zusammenfassung

Ein zentrales Versprechen des modellbasierten Verstärkungslernens ist die Fähigkeit zur Generalisierung durch die Nutzung eines internen Weltmodells zur Vorhersage in neuen Umgebungen und Aufgaben. Die Generalisierungsfähigkeit modellbasierter Agenten ist jedoch bisher wenig verstanden, da bestehende Arbeiten bei der Bewertung der Generalisierung auf modellfreie Agenten fokussiert haben. In dieser Arbeit messen wir explizit die Generalisierungsfähigkeit modellbasierter Agenten im Vergleich zu ihren modellfreien Gegenstücken. Unser Fokus liegt auf MuZero (Schrittwieser et al., 2020), einem leistungsfähigen modellbasierten Agenten, dessen Leistung sowohl bei der prozeduralen als auch bei der Aufgaben-Generalisierung evaluiert wird. Wir identifizieren drei entscheidende Faktoren der prozeduralen Generalisierung – Planung, selbstüberwachte Repräsentationslernung und Vielfalt prozeduraler Daten – und zeigen, dass deren Kombination zu einem state-of-the-art-Performance-Niveau bei der Generalisierung und Daten-Effizienz auf dem Procgen-Datensatz (Cobbe et al., 2019) führt. Allerdings stellen wir fest, dass diese Faktoren nicht immer gleichermaßen Vorteile für die Aufgaben-Generalisierung auf den Benchmarks von Meta-World (Yu et al., 2019) bringen, was darauf hindeutet, dass der Transfer weiterhin eine Herausforderung darstellt und möglicherweise andere Ansätze erfordert als die prozedurale Generalisierung. Insgesamt schlagen wir vor, dass die Entwicklung allgemeinfähiger Agenten über das bisher dominierende Paradigma des eindeutig auf eine Aufgabe zugeschnittenen, modellfreien Lernens hinausgeht und stattdessen auf selbstüberwachte, modellbasierte Agenten abzielt, die in reichen, prozeduralen, mehraufgabenbasierten Umgebungen trainiert werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp