HyperAIHyperAI

Command Palette

Search for a command to run...

vor 8 Tagen

MarsRL: Weiterentwicklung von Multi-Agenten-Reasoning-Systemen durch Verstärkendes Lernen mit agentenbasiertem Pipelinengleichlauf

Shulin Liu Dong Du Tao Yang Yang Li Boyu Qiu

MarsRL: Weiterentwicklung von Multi-Agenten-Reasoning-Systemen durch Verstärkendes Lernen mit agentenbasiertem Pipelinengleichlauf

Abstract

Neue Fortschritte bei großen Sprachmodellen (LLMs) wurden durch die Verstärkungslernmethode mit überprüfbaren Belohnungen (RLVR) und die Skalierung zur Testzeit vorangetrieben. Allerdings beschränkt die begrenzte Ausgabelänge von LLMs die Tiefe der Schlussfolgerung, die in einem einzigen Inferenzprozess erreicht werden kann. Multi-Agenten-Reasoning-Systeme bieten eine vielversprechende Alternative, indem sie mehrere Agenten – darunter Solver, Verifier und Corrector – einsetzen, um Lösungen iterativ zu verfeinern. Obwohl diese Ansätze in geschlossenen Modellen wie Gemini 2.5 Pro wirksam sind, erweisen sie sich bei offenen Modellen aufgrund unzureichender Kritik- und Korrekturfähigkeiten als schwer generalisierbar. Um dieses Problem zu lösen, stellen wir MarsRL vor, einen neuartigen Verstärkungslernrahmen mit agentenbasiertem Pipelinenaufbau, der darauf abzielt, alle Agenten im System gemeinsam zu optimieren. MarsRL führt agentenspezifische Belohnungsmechanismen ein, um Belohnungsrauschen zu reduzieren, und nutzt eine auf Pipelines inspirierte Trainingsstrategie, um die Effizienz bei der Verarbeitung langer Handlungsabläufe zu steigern. Anwendung auf Qwen3-30B-A3B-Thinking-2507 führt zu einer Steigerung der Genauigkeit im AIME2025 von 86,5 % auf 93,3 % und im BeyondAIME von 64,9 % auf 73,8 % – sogar über dem Leistungsniveau von Qwen3-235B-A22B-Thinking-2507 hinaus. Diese Ergebnisse unterstreichen das Potenzial von MarsRL, Multi-Agenten-Reasoning-Systeme voranzutreiben und deren Anwendbarkeit auf eine Vielzahl unterschiedlicher Schlussfolgerungsaufgaben zu erweitern.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
MarsRL: Weiterentwicklung von Multi-Agenten-Reasoning-Systemen durch Verstärkendes Lernen mit agentenbasiertem Pipelinengleichlauf | Forschungsarbeiten | HyperAI