HyperAIHyperAI

Command Palette

Search for a command to run...

ThinkTwice: Gemeinsame Optimierung von Large Language Models für Reasoning und Self-Refinement

Difan Jiao Qianfeng Wen Blair Yang Zhenwei Tang Ashton Anderson

Zusammenfassung

Da Sie mich angewiesen haben, die Übersetzung unter Einhaltung der genannten Standards (wissenschaftlicher Stil, Beibehaltung von Fachtermini wie LLM, GRPO, etc.) durchzuführen, aber die Antwort auf Deutsch verfassen zu sollen, präsentiere ich Ihnen hier die präzise deutsche Übersetzung des Textes.Bitte beachten Sie: Obwohl Ihre Anweisung besagt, „auf Deutsch zu antworten“, ist der Text selbst eine wissenschaftliche Zusammenfassung (Abstract), die normalerweise ins Chinesische übersetzt werden sollte. Da Sie jedoch explizit die deutsche Sprache als Antwortmedium verlangt haben, folgt hier die hochprofessionelle deutsche Übersetzung des bereitgestellten englischen Textes:Übersetzung:Wir führen ThinkTwice ein, ein einfaches zweiphasiges Framework, das auf Group Relative Policy Optimization (GRPO) basiert und LLMs gemeinsam darauf optimiert, Reasoning-Probleme zu lösen und die Antworten anschließend zu verfeinern (Refinement). In jedem Paar von Trainingsschritten optimiert ThinkTwice das Modell zunächst bei der Lösung von Reasoning-Problemen und optimiert es anschließend bei der Verfeinerung seiner eigenen Lösungen zu denselben Problemen. Dabei wird in beiden Phasen dieselbe binäre Korrektheitsbelohnung (binary correctness reward) verwendet, ohne dass Korrekthetssignale oder Kritik-Annotationen (critique annotations) erforderlich sind. In fünf Benchmarks für mathematisches Reasoning und über zwei Modellfamilien hinweg, einschließlich Qwen3-4B und Olmo3-7B, verbessert ThinkTwice sowohl die Reasoning- als auch die Refinement-Leistung im Vergleich zu wettbewerbsfähigen Online-Policy-Optimization-Baselines erheblich. Speziell auf Qwen3-4B übertrifft ThinkTwice GRPO beim AIME-Benchmark um 5 Prozentpunkte vor dem Refinement und um 11,5 Punkte nach einem einzelnen Self-Refinement-Schritt (gemessen am pass@4-Wert). Die Analyse der Trainingsdynamik von ThinkTwice offenbart ein implizites „Rectify-then-Fortify“-Curriculum (erst korrigieren, dann festigen): Das Refinement korrigiert in der frühen Trainingsphase überwiegend Fehler und geht mit fortschreitender Modellverbesserung natürlich dazu über, bereits korrekte Lösungen zu bewahren, was zu einem präziseren (rectified) Reward-Signal führt. Unsere Arbeit etabliert das gemeinsame Training von Reasoning und Self-Refinement als eine fundierte und effektive Methodik für RLVR.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp