vor 2 Monaten

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Details der Forschungsarbeit anzeigen Code anzeigen

Ning Shang Yifei Liu Yi Zhu Li Lyna Zhang Weijiang Xu Xinyu Guan Buze Zhang Bingcheng Dong Xudong Zhou Bowen Zhang

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Abstract

Wir stellen rStar2-Agent vor, ein 14B-Modell für mathematische Schlussfolgerung, das mit agentenbasiertem Verstärkungslernen trainiert wurde, um Leistungen auf Spitzenniveau zu erreichen. Im Gegensatz zu aktuellen Lang-CoT-Ansätzen zeigt das Modell fortgeschrittene kognitive Verhaltensweisen, wie beispielsweise sorgfältiges Überlegen vor der Nutzung von Python-Coding-Tools sowie die Reflexion von Ausführungsrückmeldungen, um autonom Zwischenschritte bei der Lösung komplexer Probleme zu erkunden, zu überprüfen und zu verfeinern. Diese Fähigkeit wird durch drei zentrale Innovationen ermöglicht, die agentenbasiertes Verstärkungslernen skalierbar machen: (i) eine effiziente RL-Infrastruktur mit einer zuverlässigen Python-Code-Umgebung, die eine hochdurchsatzorientierte Ausführung unterstützt und die hohen Ausführungs-Kosten reduziert, wodurch das Training mit begrenzten GPU-Ressourcen (64 MI300X-GPUs) möglich wird; (ii) GRPO-RoC, ein agentenbasiertes RL-Verfahren mit einer „Resample-on-Correct“-Ausführungsstrategie, das die inhärenten Störungen der Code-Tools berücksichtigt und das Modell in einer Code-Umgebung effektiver schlussfolgern lässt; (iii) ein effizientes Trainingsrezept für Agenten, das mit einem nicht-schlussfolgernden SFT-Start beginnt und über mehrere RL-Stufen fortschreitet, wodurch fortgeschrittene kognitive Fähigkeiten mit minimalen Rechenkosten erzielt werden. Auf diese Weise bringt rStar2-Agent ein vortrainiertes 14B-Modell innerhalb einer Woche und nur 510 RL-Schritten auf den Stand der aktuellen Forschung, erreicht durchschnittliche Pass@1-Werte von 80,6 % auf AIME24 und 69,8 % auf AIME25 – dies übertrifft DeepSeek-R1 (671B) bei deutlich kürzeren Antworten. Neben der Mathematik zeigt rStar2-Agent-14B zudem starke Generalisierungsfähigkeit bei der Ausrichtung (Alignment), wissenschaftlichem Schlussfolgern sowie agentenbasierten Tool-Verwendungs-Aufgaben. Der Quellcode und die Trainingsrezepte sind unter https://github.com/microsoft/rStar verfügbar.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

rStar2-Agent: Technischer Bericht zur agentenbasierten Schlussfolgerung

Ning Shang Yifei Liu Yi Zhu Li Lyna Zhang Weijiang Xu Xinyu Guan Buze Zhang Bingcheng Dong Xudong Zhou Bowen Zhang5 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Ning Shang Yifei Liu Yi Zhu Li Lyna Zhang Weijiang Xu Xinyu Guan Buze Zhang Bingcheng Dong Xudong Zhou Bowen Zhang