vor 8 Monaten

Zusammenfassung

Prozess-Belohnungsmodelle (PRMs) sind kürzlich als ein mächtiges Framework zur Überwachung von Zwischenschritten im kausalen Schließen in großen Sprachmodellen (LLMs) hervorgetreten. Vorherige PRMs werden hauptsächlich anhand der endgültigen Ausgabe des Modells trainiert und haben Schwierigkeiten, den Verlauf des kausalen Denkens robust zu bewerten, insbesondere in der sich entwickelnden Situation von Verlauf-Ausgabe-Ergebnissen, die von fortschrittlichen Kausalitätsmodellen wie Deepseek-R1 erzeugt werden. In dieser Arbeit stellen wir ReasonFlux-PRM vor, ein neues, verlaufsbewusstes PRM, das explizit entwickelt wurde, um Verlaufs-Ausgabe-Typen von Kausalitätsspuren zu bewerten. ReasonFlux-PRM integriert sowohl schrittweise als auch verlaufsweise Überwachung, was eine detaillierte Belohnungszuweisung ermöglicht, die mit strukturierten Gedankenkette-Daten übereinstimmt. Wir passen ReasonFlux-PRM an, um Belohnungsüberwachung sowohl in offline- als auch in online-Szenarien zu unterstützen, einschließlich (i) der Auswahl hochwertiger Distillationsdaten für die nachgeschaltete überwachte Feinabstimmung kleinerer Modelle, (ii) der Bereitstellung dichter prozessbasierter Belohnungen für die Richtlinienoptimierung während des Reinforcement Learnings und (iii) der Aktivierung von belohnungsgeleiteten Best-of-N Testzeit-Skalierungen. Empirische Ergebnisse auf anspruchsvollen nachgeschalteten Benchmarks wie AIME, MATH500 und GPQA-Diamond zeigen, dass ReasonFlux-PRM-7B höhere Qualität von Daten auswählt als starke PRMs (z.B., Qwen2.5-Math-PRM-72B) und menschengenerierte Baselineverfahren. Darüber hinaus führen unsere abgeleiteten ReasonFlux-PRM-7B Modelle konstante Leistungsverbesserungen zu und erreichen durchschnittliche Gewinne von 12.1% bei überwachter Feinabstimmung, 4.5% beim Reinforcement Learning und 6.3% bei Testzeit-Skalierung. Wir veröffentlichen außerdem unser effizientes ReasonFlux-PRM-1.5B für ressourcenbeschränkte Anwendungen und Edge-Bereitstellungen.Projekte: https://github.com/Gen-Verse/ReasonFlux

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Überwachtes Feinabstimmen

Präferenzmodellierung

Benchmarks

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Überwachtes Feinabstimmen

Präferenzmodellierung

Benchmarks

KI-Infrastruktur

Ansatz/Rahmenwerk

Natürliche Sprachverarbeitung

Aufgabe

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ReasonFlux-PRM: Trajektorienbewusste PRMs für langes Kettendenken in LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReasonFlux-PRM: Trajektorienbewusste PRMs für langes Kettendenken in LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReasonFlux-PRM: Trajektorienbewusste PRMs für langes Kettendenken in LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters