HyperAIHyperAI

Command Palette

Search for a command to run...

Planung in stochastischen Umgebungen mit einem gelernten Modell

David Silver Thomas K Hubert Sherjil Ozair Julian Schrittwieser Ioannis Antonoglou

Zusammenfassung

Modellbasiertes Verstärkungslernen hat sich als äußerst erfolgreich erwiesen. Dennoch bergen die Isolation des Modell-Lernens von dessen Nutzung während des Planens erhebliche Probleme in komplexen Umgebungen. Bislang haben die effektivsten Ansätze stattdessen Wert-äquivalente Modellbildung mit leistungsstarken Baum-Such-Verfahren kombiniert. Dieser Ansatz wird beispielhaft durch MuZero veranschaulicht, das state-of-the-art-Leistungen in einer Vielzahl von Domänen erzielt hat – von Brettspielen bis hin zu visuell reichen Umgebungen mit diskreten und kontinuierlichen Aktionsräumen, sowohl in online- als auch in offline-Szenarien. Allerdings waren frühere Implementierungen dieses Ansatzes auf deterministische Modelle beschränkt, was deren Leistungsfähigkeit in Umgebungen einschränkt, die inhärent stochastisch sind, teilweise beobachtbar, oder derart groß und komplex, dass sie für einen endlichen Agenten stochastisch erscheinen. In diesem Paper erweitern wir diesen Ansatz, um stochastische Modelle zu lernen und zu planen. Konkret stellen wir einen neuen Algorithmus, Stochastic MuZero, vor, der ein stochastisches Modell mit Afterstates lernt und dieses Modell zur Durchführung einer stochastischen Baum-Suche nutzt. Stochastic MuZero erreichte oder übertraf die state-of-the-art-Leistung in einer Reihe klassischer Ein- und Mehragenten-Umgebungen, darunter 2048 und Backgammon, während es gleichzeitig die gleiche Leistung wie der herkömmliche MuZero im Spiel Go beibehielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp