HyperAI
vor 2 Tagen

SPIRAL: Selbstspiels auf Nullsummenspielen fördert das Denken durch Multi-Agenten-Mehr-Zug-Reinforcement-Learning

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques
SPIRAL: Selbstspiels auf Nullsummenspielen fördert das Denken durch
Multi-Agenten-Mehr-Zug-Reinforcement-Learning
Abstract

Neuere Fortschritte im Bereich des Reinforcement Learnings haben gezeigt, dass Sprachmodelle durch das Training bei Aufgaben mit verifizierbaren Belohnungen fortschrittliche Denkfähigkeiten entwickeln können. Diese Ansätze hängen jedoch von menschlich erstellten Problem-Lösungspaaren und domänenspezifischem Belohnungsdesign ab. Wir stellen SPIRAL vor, einen Framework für Selbstspielszenarien, bei dem Modelle durch das Spielen von mehrstufigen, Nullsummenspielen gegen ständig verbesserte Versionen von sich selbst lernen, wodurch die Notwendigkeit menschlicher Überwachung eliminiert wird. Durch Selbstspiel generiert SPIRAL ein unendliches Curriculum progressively anspruchsvoller Probleme, da die Modelle sich ständig anpassen müssen, um stärkere Gegner zu besiegen. Um dieses Selbstspieltraining in großem Maßstab zu ermöglichen, implementieren wir ein vollständig online-basiertes Mehragenten-Reinforcement-Learning-System für LLMs und schlagen eine rollenbedingte Vorteilsbewertung (Role-Conditioned Advantage Estimation, RAE) vor, um das Mehragententraining zu stabilisieren.Mit SPIRAL erzeugt das Selbstspiel auf Nullsummenspielen Denkfähigkeiten, die weitreichend übertragbar sind. Das Training von Qwen3-4B-Base allein am Kuhn-Poker führt zu einer Verbesserung von 8,6 % in Mathematik und 8,4 % in allgemeiner Logik, wobei es 25.000 Expertenspielpfade (SFT) übertreffen kann. Eine Analyse zeigt, dass diese Übertragung durch drei kognitive Muster erfolgt: systematische Zerlegung, Berechnung des erwarteten Wertes und fallweise Analyse. Mehrspiels-Training (TicTacToe, Kuhn-Poker, einfache Verhandlungen) verbessert die Leistung weiterhin, da jedes Spiel spezifische Denkstärken fördert. Die Anwendung von SPIRAL auf ein leistungsfähiges Denkmodell (DeepSeek-R1-Distill-Qwen-7B) führt immer noch zu einer durchschnittlichen Verbesserung von 2,0 %. Diese Ergebnisse belegen, dass Nullsummenspiele natürliche übertragbare Denkfähigkeiten entwickeln und somit eine vielversprechende Richtung für die autonome Entwicklung von Denkfähigkeiten darstellen.