Lernen und Planen in komplexen Aktionsräumen

Viele wichtige Probleme der realen Welt weisen hochdimensionale, kontinuierliche oder beides zugleich auf, was eine vollständige Aufzählung aller möglichen Aktionen unmöglich macht. Stattdessen können lediglich kleine Teilmengen von Aktionen zur Beurteilung und Verbesserung einer Politik abgetastet werden. In diesem Artikel stellen wir einen allgemeinen Rahmen vor, der es ermöglicht, auf eindeutige und konsistente Weise die Beurteilung und Verbesserung von Politiken über solche abgetasteten Aktionsteilmengen vorzunehmen. Der auf Stichproben basierende Politik-Iterationsansatz kann prinzipiell auf jedes Verstärkungslernverfahren angewendet werden, das auf der Politik-Iteration beruht. Konkret schlagen wir Sampled MuZero vor, eine Erweiterung des MuZero-Algorithmus, der in Domänen mit beliebig komplexen Aktionsräumen lernen kann, indem er über abgetastete Aktionen plant. Wir demonstrieren die Wirksamkeit dieses Ansatzes anhand des klassischen Brettspiels Go sowie an zwei Benchmark-Domänen für kontinuierliche Steuerung: dem DeepMind Control Suite und dem Real-World RL Suite.