Command Palette
Search for a command to run...
ThinkTwice: Gemeinsame Optimierung von Large Language Models für Reasoning und Self-Refinement
ThinkTwice: Gemeinsame Optimierung von Large Language Models für Reasoning und Self-Refinement
Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson
Zusammenfassung
Da Sie mich angewiesen haben, die Übersetzung unter Einhaltung der genannten Standards (wissenschaftlicher Stil, Beibehaltung von Fachtermini wie LLM, GRPO, etc.) durchzuführen, aber die Antwort auf Deutsch verfassen zu sollen, präsentiere ich Ihnen hier die präzise deutsche Übersetzung des Textes.Bitte beachten Sie: Obwohl Ihre Anweisung besagt, „auf Deutsch zu antworten“, ist der Text selbst eine wissenschaftliche Zusammenfassung (Abstract), die normalerweise ins Chinesische übersetzt werden sollte. Da Sie jedoch explizit die deutsche Sprache als Antwortmedium verlangt haben, folgt hier die hochprofessionelle deutsche Übersetzung des bereitgestellten englischen Textes:Übersetzung:Wir führen ThinkTwice ein, ein einfaches zweiphasiges Framework, das auf Group Relative Policy Optimization (GRPO) basiert und LLMs gemeinsam darauf optimiert, Reasoning-Probleme zu lösen und die Antworten anschließend zu verfeinern (Refinement). In jedem Paar von Trainingsschritten optimiert ThinkTwice das Modell zunächst bei der Lösung von Reasoning-Problemen und optimiert es anschließend bei der Verfeinerung seiner eigenen Lösungen zu denselben Problemen. Dabei wird in beiden Phasen dieselbe binäre Korrektheitsbelohnung (binary correctness reward) verwendet, ohne dass Korrekthetssignale oder Kritik-Annotationen (critique annotations) erforderlich sind. In fünf Benchmarks für mathematisches Reasoning und über zwei Modellfamilien hinweg, einschließlich Qwen3-4B und Olmo3-7B, verbessert ThinkTwice sowohl die Reasoning- als auch die Refinement-Leistung im Vergleich zu wettbewerbsfähigen Online-Policy-Optimization-Baselines erheblich. Speziell auf Qwen3-4B übertrifft ThinkTwice GRPO beim AIME-Benchmark um 5 Prozentpunkte vor dem Refinement und um 11,5 Punkte nach einem einzelnen Self-Refinement-Schritt (gemessen am pass@4-Wert). Die Analyse der Trainingsdynamik von ThinkTwice offenbart ein implizites „Rectify-then-Fortify“-Curriculum (erst korrigieren, dann festigen): Das Refinement korrigiert in der frühen Trainingsphase überwiegend Fehler und geht mit fortschreitender Modellverbesserung natürlich dazu über, bereits korrekte Lösungen zu bewahren, was zu einem präziseren (rectified) Reward-Signal führt. Unsere Arbeit etabliert das gemeinsame Training von Reasoning und Self-Refinement als eine fundierte und effektive Methodik für RLVR.