Command Palette
Search for a command to run...
Langfristiges Schlussfolgerungs-Agentensystem zur Lösung olympiadeähnlicher mathematischer Probleme
Langfristiges Schlussfolgerungs-Agentensystem zur Lösung olympiadeähnlicher mathematischer Probleme
Zusammenfassung
Große Sprachmodelle (LLMs) haben erhebliche Fortschritte bei der Lösung komplexer Schlussfolgerungsaufgaben durch Verstärkendes Lernen mit überprüfbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) erzielt. Dieser Fortschritt ist eng verknüpft mit der automatisierten Überwachung durch zuverlässige Verifizierer. Allerdings sind derzeitige ergebnisbasierte Verifizierer (Outcome Verifiers, OVs) nicht in der Lage, die unzuverlässigen Zwischenschritte in langen Denkketten (Chain-of-Thoughts, CoTs) zu überprüfen. Gleichzeitig haben derzeitige prozessbasierte Verifizierer (Process Verifiers, PVs) Schwierigkeiten, Fehler in komplexen, langen CoTs zuverlässig zu erkennen, was auf die Knappheit hochwertiger Annotationen zurückzuführen ist, die aufgrund der hohen Kosten menschlicher Annotationen begrenzt sind. Daher schlagen wir den outcomebasierten Prozessverifizierer (Outcome-based Process Verifier, OPV) vor, der die Schlussfolgerungsprozesse aus zusammengefassten Ergebnissen langer CoTs verifiziert, um sowohl eine genaue als auch effiziente Verifizierung zu erreichen und eine großskalige Annotation zu ermöglichen. Um den vorgeschlagenen Verifizierer zu stärken, nutzen wir einen iterativen aktiven Lernansatz mit Expertenannotationen, um die Verifizierungsfähigkeit des OPV mit geringeren Annotationskosten schrittweise zu verbessern. Konkret werden in jeder Iteration die unsichersten Fälle des derzeit besten OPV annotiert und anschließend zur Ausbildung eines neuen OPV durch Rejection Fine-Tuning (RFT) und RLVR für die nächste Runde genutzt. Umfangreiche Experimente belegen die überlegene Leistung und die breite Anwendbarkeit des OPV. Er erreicht neue SOTA-Ergebnisse auf unserem gehaltenen Testset hisbench, wobei er deutlich größere Open-Source-Modelle wie Qwen3-Max-Preview mit einem F1-Score von 83,1 gegenüber 76,3 schlägt. Zudem erkennt OPV effektiv Falschpositiva in synthetischen Datensätzen, wobei die Ergebnisse eng mit der Einschätzung von Experten übereinstimmen. Bei der Zusammenarbeit mit Policy-Modellen erzielt OPV konsistent Leistungssteigerungen, beispielsweise erhöht er die Genauigkeit von DeepSeek-R1-Distill-Qwen-32B auf AIME2025 von 55,2 % auf 73,3 %, wobei sich die Leistung mit steigendem Rechenbudget weiter verbessert.