ReasonFlux-PRM: Trajektorienbewusste PRMs für langes Kettendenken in LLMs

Prozess-Belohnungsmodelle (PRMs) sind kürzlich als ein mächtiges Framework zur Überwachung von Zwischenschritten im kausalen Schließen in großen Sprachmodellen (LLMs) hervorgetreten. Vorherige PRMs werden hauptsächlich anhand der endgültigen Ausgabe des Modells trainiert und haben Schwierigkeiten, den Verlauf des kausalen Denkens robust zu bewerten, insbesondere in der sich entwickelnden Situation von Verlauf-Ausgabe-Ergebnissen, die von fortschrittlichen Kausalitätsmodellen wie Deepseek-R1 erzeugt werden. In dieser Arbeit stellen wir ReasonFlux-PRM vor, ein neues, verlaufsbewusstes PRM, das explizit entwickelt wurde, um Verlaufs-Ausgabe-Typen von Kausalitätsspuren zu bewerten. ReasonFlux-PRM integriert sowohl schrittweise als auch verlaufsweise Überwachung, was eine detaillierte Belohnungszuweisung ermöglicht, die mit strukturierten Gedankenkette-Daten übereinstimmt. Wir passen ReasonFlux-PRM an, um Belohnungsüberwachung sowohl in offline- als auch in online-Szenarien zu unterstützen, einschließlich (i) der Auswahl hochwertiger Distillationsdaten für die nachgeschaltete überwachte Feinabstimmung kleinerer Modelle, (ii) der Bereitstellung dichter prozessbasierter Belohnungen für die Richtlinienoptimierung während des Reinforcement Learnings und (iii) der Aktivierung von belohnungsgeleiteten Best-of-N Testzeit-Skalierungen. Empirische Ergebnisse auf anspruchsvollen nachgeschalteten Benchmarks wie AIME, MATH500 und GPQA-Diamond zeigen, dass ReasonFlux-PRM-7B höhere Qualität von Daten auswählt als starke PRMs (z.B., Qwen2.5-Math-PRM-72B) und menschengenerierte Baselineverfahren. Darüber hinaus führen unsere abgeleiteten ReasonFlux-PRM-7B Modelle konstante Leistungsverbesserungen zu und erreichen durchschnittliche Gewinne von 12.1% bei überwachter Feinabstimmung, 4.5% beim Reinforcement Learning und 6.3% bei Testzeit-Skalierung. Wir veröffentlichen außerdem unser effizientes ReasonFlux-PRM-1.5B für ressourcenbeschränkte Anwendungen und Edge-Bereitstellungen.Projekte: https://github.com/Gen-Verse/ReasonFlux