Prozedurale Generalisierung durch Planung mit selbstüberwachten Weltmodellen

Ein zentrales Versprechen des modellbasierten Verstärkungslernens ist die Fähigkeit zur Generalisierung durch die Nutzung eines internen Weltmodells zur Vorhersage in neuen Umgebungen und Aufgaben. Die Generalisierungsfähigkeit modellbasierter Agenten ist jedoch bisher wenig verstanden, da bestehende Arbeiten bei der Bewertung der Generalisierung auf modellfreie Agenten fokussiert haben. In dieser Arbeit messen wir explizit die Generalisierungsfähigkeit modellbasierter Agenten im Vergleich zu ihren modellfreien Gegenstücken. Unser Fokus liegt auf MuZero (Schrittwieser et al., 2020), einem leistungsfähigen modellbasierten Agenten, dessen Leistung sowohl bei der prozeduralen als auch bei der Aufgaben-Generalisierung evaluiert wird. Wir identifizieren drei entscheidende Faktoren der prozeduralen Generalisierung – Planung, selbstüberwachte Repräsentationslernung und Vielfalt prozeduraler Daten – und zeigen, dass deren Kombination zu einem state-of-the-art-Performance-Niveau bei der Generalisierung und Daten-Effizienz auf dem Procgen-Datensatz (Cobbe et al., 2019) führt. Allerdings stellen wir fest, dass diese Faktoren nicht immer gleichermaßen Vorteile für die Aufgaben-Generalisierung auf den Benchmarks von Meta-World (Yu et al., 2019) bringen, was darauf hindeutet, dass der Transfer weiterhin eine Herausforderung darstellt und möglicherweise andere Ansätze erfordert als die prozedurale Generalisierung. Insgesamt schlagen wir vor, dass die Entwicklung allgemeinfähiger Agenten über das bisher dominierende Paradigma des eindeutig auf eine Aufgabe zugeschnittenen, modellfreien Lernens hinausgeht und stattdessen auf selbstüberwachte, modellbasierte Agenten abzielt, die in reichen, prozeduralen, mehraufgabenbasierten Umgebungen trainiert werden.