HyperAIHyperAI

Command Palette

Search for a command to run...

ReasonFlux-PRM: Trajektorienbewusste PRMs für langes Kettendenken in LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

Prozess-Belohnungsmodelle (PRMs) sind kürzlich als ein mächtiges Framework zur Überwachung von Zwischenschritten im kausalen Schließen in großen Sprachmodellen (LLMs) hervorgetreten. Vorherige PRMs werden hauptsächlich anhand der endgültigen Ausgabe des Modells trainiert und haben Schwierigkeiten, den Verlauf des kausalen Denkens robust zu bewerten, insbesondere in der sich entwickelnden Situation von Verlauf-Ausgabe-Ergebnissen, die von fortschrittlichen Kausalitätsmodellen wie Deepseek-R1 erzeugt werden. In dieser Arbeit stellen wir ReasonFlux-PRM vor, ein neues, verlaufsbewusstes PRM, das explizit entwickelt wurde, um Verlaufs-Ausgabe-Typen von Kausalitätsspuren zu bewerten. ReasonFlux-PRM integriert sowohl schrittweise als auch verlaufsweise Überwachung, was eine detaillierte Belohnungszuweisung ermöglicht, die mit strukturierten Gedankenkette-Daten übereinstimmt. Wir passen ReasonFlux-PRM an, um Belohnungsüberwachung sowohl in offline- als auch in online-Szenarien zu unterstützen, einschließlich (i) der Auswahl hochwertiger Distillationsdaten für die nachgeschaltete überwachte Feinabstimmung kleinerer Modelle, (ii) der Bereitstellung dichter prozessbasierter Belohnungen für die Richtlinienoptimierung während des Reinforcement Learnings und (iii) der Aktivierung von belohnungsgeleiteten Best-of-N Testzeit-Skalierungen. Empirische Ergebnisse auf anspruchsvollen nachgeschalteten Benchmarks wie AIME, MATH500 und GPQA-Diamond zeigen, dass ReasonFlux-PRM-7B höhere Qualität von Daten auswählt als starke PRMs (z.B., Qwen2.5-Math-PRM-72B) und menschengenerierte Baselineverfahren. Darüber hinaus führen unsere abgeleiteten ReasonFlux-PRM-7B Modelle konstante Leistungsverbesserungen zu und erreichen durchschnittliche Gewinne von 12.1% bei überwachter Feinabstimmung, 4.5% beim Reinforcement Learning und 6.3% bei Testzeit-Skalierung. Wir veröffentlichen außerdem unser effizientes ReasonFlux-PRM-1.5B für ressourcenbeschränkte Anwendungen und Edge-Bereitstellungen.Projekte: https://github.com/Gen-Verse/ReasonFlux


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp