Planung in stochastischen Umgebungen mit einem gelernten Modell

Modellbasiertes Verstärkungslernen hat sich als äußerst erfolgreich erwiesen. Dennoch bergen die Isolation des Modell-Lernens von dessen Nutzung während des Planens erhebliche Probleme in komplexen Umgebungen. Bislang haben die effektivsten Ansätze stattdessen Wert-äquivalente Modellbildung mit leistungsstarken Baum-Such-Verfahren kombiniert. Dieser Ansatz wird beispielhaft durch MuZero veranschaulicht, das state-of-the-art-Leistungen in einer Vielzahl von Domänen erzielt hat – von Brettspielen bis hin zu visuell reichen Umgebungen mit diskreten und kontinuierlichen Aktionsräumen, sowohl in online- als auch in offline-Szenarien. Allerdings waren frühere Implementierungen dieses Ansatzes auf deterministische Modelle beschränkt, was deren Leistungsfähigkeit in Umgebungen einschränkt, die inhärent stochastisch sind, teilweise beobachtbar, oder derart groß und komplex, dass sie für einen endlichen Agenten stochastisch erscheinen. In diesem Paper erweitern wir diesen Ansatz, um stochastische Modelle zu lernen und zu planen. Konkret stellen wir einen neuen Algorithmus, Stochastic MuZero, vor, der ein stochastisches Modell mit Afterstates lernt und dieses Modell zur Durchführung einer stochastischen Baum-Suche nutzt. Stochastic MuZero erreichte oder übertraf die state-of-the-art-Leistung in einer Reihe klassischer Ein- und Mehragenten-Umgebungen, darunter 2048 und Backgammon, während es gleichzeitig die gleiche Leistung wie der herkömmliche MuZero im Spiel Go beibehielt.