MarsRL: Weiterentwicklung von Multi-Agenten-Reasoning-Systemen durch Verstärkendes Lernen mit agentenbasiertem Pipelinengleichlauf
Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

Abstract
Neue Fortschritte bei großen Sprachmodellen (LLMs) wurden durch die Verstärkungslernmethode mit überprüfbaren Belohnungen (RLVR) und die Skalierung zur Testzeit vorangetrieben. Allerdings beschränkt die begrenzte Ausgabelänge von LLMs die Tiefe der Schlussfolgerung, die in einem einzigen Inferenzprozess erreicht werden kann. Multi-Agenten-Reasoning-Systeme bieten eine vielversprechende Alternative, indem sie mehrere Agenten – darunter Solver, Verifier und Corrector – einsetzen, um Lösungen iterativ zu verfeinern. Obwohl diese Ansätze in geschlossenen Modellen wie Gemini 2.5 Pro wirksam sind, erweisen sie sich bei offenen Modellen aufgrund unzureichender Kritik- und Korrekturfähigkeiten als schwer generalisierbar. Um dieses Problem zu lösen, stellen wir MarsRL vor, einen neuartigen Verstärkungslernrahmen mit agentenbasiertem Pipelinenaufbau, der darauf abzielt, alle Agenten im System gemeinsam zu optimieren. MarsRL führt agentenspezifische Belohnungsmechanismen ein, um Belohnungsrauschen zu reduzieren, und nutzt eine auf Pipelines inspirierte Trainingsstrategie, um die Effizienz bei der Verarbeitung langer Handlungsabläufe zu steigern. Anwendung auf Qwen3-30B-A3B-Thinking-2507 führt zu einer Steigerung der Genauigkeit im AIME2025 von 86,5 % auf 93,3 % und im BeyondAIME von 64,9 % auf 73,8 % – sogar über dem Leistungsniveau von Qwen3-235B-A22B-Thinking-2507 hinaus. Diese Ergebnisse unterstreichen das Potenzial von MarsRL, Multi-Agenten-Reasoning-Systeme voranzutreiben und deren Anwendbarkeit auf eine Vielzahl unterschiedlicher Schlussfolgerungsaufgaben zu erweitern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.