Atari-, Go-, Schach- und Shogi-Spiele meistern durch Planung mit einem gelernten Modell

Die Konstruktion von Agenten mit Planungsfähigkeiten ist seit langem eine der Hauptausforderungen bei der Entwicklung künstlicher Intelligenz. Baum-basierte Planungsmethoden haben in anspruchsvollen Bereichen wie Schach und Go, wo ein perfekter Simulator zur Verfügung steht, großen Erfolg gefeiert. Allerdings sind die Dynamiken, die die Umgebung in realen Problemen steuern, oft komplex und unbekannt. In dieser Arbeit stellen wir den MuZero-Algorithmus vor, der durch die Kombination eines baum-basierten Suchverfahrens mit einem gelernten Modell übermenschliche Leistungen in einer Reihe von herausfordernden und visuell komplexen Domänen erzielt, ohne irgendein Wissen über deren zugrundeliegende Dynamiken zu besitzen. MuZero lernt ein Modell, das bei iterativer Anwendung die für die Planung direkt relevanten Größen vorhersagt: den Reward (Belohnung), die Aktionselektionspolitik (Aktionenauswahlstrategie) und die Wertfunktion. Bei der Bewertung anhand von 57 verschiedenen Atari-Spielen – der kanonischen Videospielumgebung zur Prüfung von KI-Techniken, bei denen modellbasierte Planungsansätze historisch gesehen Schwierigkeiten hatten – erreichte unser neuer Algorithmus einen neuen Stand der Technik. Bei der Bewertung im Go-, Schach- und Shogi-Spiel zeigte MuZero ohne jedes Wissen über die Spielregeln eine Leistung, die der des AlphaZero-Algorithmus entspricht, welcher mit den Spielregeln versorgt wurde.