HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen und Planen in komplexen Aktionsräumen

Thomas Hubert Julian Schrittwieser Ioannis Antonoglou Mohammadamin Barekatain Simon Schmitt David Silver

Zusammenfassung

Viele wichtige Probleme der realen Welt weisen hochdimensionale, kontinuierliche oder beides zugleich auf, was eine vollständige Aufzählung aller möglichen Aktionen unmöglich macht. Stattdessen können lediglich kleine Teilmengen von Aktionen zur Beurteilung und Verbesserung einer Politik abgetastet werden. In diesem Artikel stellen wir einen allgemeinen Rahmen vor, der es ermöglicht, auf eindeutige und konsistente Weise die Beurteilung und Verbesserung von Politiken über solche abgetasteten Aktionsteilmengen vorzunehmen. Der auf Stichproben basierende Politik-Iterationsansatz kann prinzipiell auf jedes Verstärkungslernverfahren angewendet werden, das auf der Politik-Iteration beruht. Konkret schlagen wir Sampled MuZero vor, eine Erweiterung des MuZero-Algorithmus, der in Domänen mit beliebig komplexen Aktionsräumen lernen kann, indem er über abgetastete Aktionen plant. Wir demonstrieren die Wirksamkeit dieses Ansatzes anhand des klassischen Brettspiels Go sowie an zwei Benchmark-Domänen für kontinuierliche Steuerung: dem DeepMind Control Suite und dem Real-World RL Suite.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen und Planen in komplexen Aktionsräumen | Paper | HyperAI