Command Palette
Search for a command to run...
rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Abstract
Wir stellen rStar2-Agent vor, ein 14B-Modell für mathematische Schlussfolgerung, das mit agentenbasiertem Verstärkungslernen trainiert wurde, um Leistungen auf Spitzenniveau zu erreichen. Im Gegensatz zu aktuellen Lang-CoT-Ansätzen zeigt das Modell fortgeschrittene kognitive Verhaltensweisen, wie beispielsweise sorgfältiges Überlegen vor der Nutzung von Python-Coding-Tools sowie die Reflexion von Ausführungsrückmeldungen, um autonom Zwischenschritte bei der Lösung komplexer Probleme zu erkunden, zu überprüfen und zu verfeinern. Diese Fähigkeit wird durch drei zentrale Innovationen ermöglicht, die agentenbasiertes Verstärkungslernen skalierbar machen: (i) eine effiziente RL-Infrastruktur mit einer zuverlässigen Python-Code-Umgebung, die eine hochdurchsatzorientierte Ausführung unterstützt und die hohen Ausführungs-Kosten reduziert, wodurch das Training mit begrenzten GPU-Ressourcen (64 MI300X-GPUs) möglich wird; (ii) GRPO-RoC, ein agentenbasiertes RL-Verfahren mit einer „Resample-on-Correct“-Ausführungsstrategie, das die inhärenten Störungen der Code-Tools berücksichtigt und das Modell in einer Code-Umgebung effektiver schlussfolgern lässt; (iii) ein effizientes Trainingsrezept für Agenten, das mit einem nicht-schlussfolgernden SFT-Start beginnt und über mehrere RL-Stufen fortschreitet, wodurch fortgeschrittene kognitive Fähigkeiten mit minimalen Rechenkosten erzielt werden. Auf diese Weise bringt rStar2-Agent ein vortrainiertes 14B-Modell innerhalb einer Woche und nur 510 RL-Schritten auf den Stand der aktuellen Forschung, erreicht durchschnittliche Pass@1-Werte von 80,6 % auf AIME24 und 69,8 % auf AIME25 – dies übertrifft DeepSeek-R1 (671B) bei deutlich kürzeren Antworten. Neben der Mathematik zeigt rStar2-Agent-14B zudem starke Generalisierungsfähigkeit bei der Ausrichtung (Alignment), wissenschaftlichem Schlussfolgern sowie agentenbasierten Tool-Verwendungs-Aufgaben. Der Quellcode und die Trainingsrezepte sind unter https://github.com/microsoft/rStar verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.