SwS: Selbstbewusste Schwachstellen-getriebene Problemerzeugung im Reinforcement Learning für LLM-Reasoning

Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu

Veröffentlichungsdatum: 6/16/2025

SwS: Selbstbewusste Schwachstellen-getriebene Problemerzeugung im Reinforcement Learning für LLM-Reasoning

Abstract

Das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als effektiv erwiesen, um große Sprachmodelle (LLMs) bei komplexen Denkaufgaben wie der Lösung mathematischer Probleme zu trainieren. Eine Voraussetzung für die Skalierbarkeit von RLVR ist ein hochwertiger Problemset mit präzisen und verifizierbaren Antworten. Allerdings begrenzen die Knappheit gut gestalteter, menschlich beschrifteter Mathematikaufgaben und die eingeschränkte Verifizierung von Antworten in bestehenden distillationsorientierten synthetischen Datensätzen ihre Effektivität im RL. Zudem erweitern die meisten Aufgabensynthesestrategien den Problemset willkürlich, ohne die Fähigkeiten des Modells zu berücksichtigen, was zu einer geringen Effizienz bei der Erstellung nützlicher Fragen führt. Um dieses Problem zu mindern, stellen wir einen selbstbewussten schwächegetriebenen Aufgabensynthese-Rahmen (SwS) vor, der systematisch Modellmängel identifiziert und diese für die Aufgabenverstärkung nutzt. Insbesondere definieren wir Schwächen als Fragen, bei denen das Modell während seines iterativen Sammelns im RL-Training stets versagt. Wir extrahieren dann die Kernkonzepte aus diesen Fehlern und synthetisieren neue Probleme, um die schwachen Bereiche des Modells in nachfolgenden erweiterten Trainingsphasen zu stärken und es so zu befähigen, sich auf seine Schwächen zu konzentrieren und sie allmählich zu überwinden. Ohne auf externe Wissensdistillation zurückzugreifen, ermöglicht unser Rahmen eine robuste Generalisierung, indem er das Modell dazu befähigt, seine Schwächen im RL selbstständig zu identifizieren und anzugehen. Dies führt durchschnittlich zu Leistungssteigerungen von 10,0 % und 7,7 % bei 7-Milliarden-Parameter-Modellen und 32-Milliarden-Parameter-Modellen über acht Hauptdenkbanchmarks hinweg.

Details der Forschungsarbeit anzeigen