ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs

Les modèles de récompense de processus (PRMs) sont récemment apparus comme un cadre puissant pour superviser les étapes intermédiaires de raisonnement dans les grands modèles linguistiques (LLMs). Les PRMs précédents sont principalement formés sur les réponses finales des modèles et ont du mal à évaluer de manière robuste les trajectoires de pensée intermédiaires, en particulier dans le contexte émergent des sorties trajectoire-réponse générées par des modèles de raisonnement frontières comme Deepseek-R1. Dans cette étude, nous présentons ReasonFlux-PRM, un nouveau PRM conçu explicitement pour évaluer les traces de raisonnement de type trajectoire-réponse. ReasonFlux-PRM intègre une supervision au niveau des étapes et au niveau des trajectoires, permettant une attribution de récompenses fine et alignée avec les données structurées en chaîne de pensée. Nous adaptons ReasonFlux-PRM pour supporter la supervision des récompenses dans des configurations hors ligne et en ligne, y compris : (i) la sélection de données d'élaboration de modèle de haute qualité pour l'affinage supervisé en aval des petits modèles, (ii) la fourniture de récompenses denses au niveau du processus pour l'optimisation des politiques lors de l'apprentissage par renforcement, et (iii) la mise en œuvre d'un ajustement temporel Best-of-N guidé par les récompenses. Les résultats empiriques sur des benchmarks difficiles tels que AIME, MATH500 et GPQA-Diamond montrent que ReasonFlux-PRM-7B sélectionne des données de meilleure qualité que les PRMs performants (par exemple, Qwen2.5-Math-PRM-72B) et les lignes directrices curatées par l'homme. De plus, notre ReasonFlux-PRM-7B dérivé offre des améliorations constantes des performances, atteignant des gains moyens de 12,1 % en affinage supervisé, 4,5 % en apprentissage par renforcement et 6,3 % en ajustement temporel. Nous mettons également à disposition notre efficace ReasonFlux-PRM-1.5B pour les applications sous contrainte de ressources et le déploiement sur périphérique.Projets : https://github.com/Gen-Verse/ReasonFlux