il y a 8 mois

Résumé

Les modèles de récompense de processus (PRMs) sont récemment apparus comme un cadre puissant pour superviser les étapes intermédiaires de raisonnement dans les grands modèles linguistiques (LLMs). Les PRMs précédents sont principalement formés sur les réponses finales des modèles et ont du mal à évaluer de manière robuste les trajectoires de pensée intermédiaires, en particulier dans le contexte émergent des sorties trajectoire-réponse générées par des modèles de raisonnement frontières comme Deepseek-R1. Dans cette étude, nous présentons ReasonFlux-PRM, un nouveau PRM conçu explicitement pour évaluer les traces de raisonnement de type trajectoire-réponse. ReasonFlux-PRM intègre une supervision au niveau des étapes et au niveau des trajectoires, permettant une attribution de récompenses fine et alignée avec les données structurées en chaîne de pensée. Nous adaptons ReasonFlux-PRM pour supporter la supervision des récompenses dans des configurations hors ligne et en ligne, y compris : (i) la sélection de données d'élaboration de modèle de haute qualité pour l'affinage supervisé en aval des petits modèles, (ii) la fourniture de récompenses denses au niveau du processus pour l'optimisation des politiques lors de l'apprentissage par renforcement, et (iii) la mise en œuvre d'un ajustement temporel Best-of-N guidé par les récompenses. Les résultats empiriques sur des benchmarks difficiles tels que AIME, MATH500 et GPQA-Diamond montrent que ReasonFlux-PRM-7B sélectionne des données de meilleure qualité que les PRMs performants (par exemple, Qwen2.5-Math-PRM-72B) et les lignes directrices curatées par l'homme. De plus, notre ReasonFlux-PRM-7B dérivé offre des améliorations constantes des performances, atteignant des gains moyens de 12,1 % en affinage supervisé, 4,5 % en apprentissage par renforcement et 6,3 % en ajustement temporel. Nous mettons également à disposition notre efficace ReasonFlux-PRM-1.5B pour les applications sous contrainte de ressources et le déploiement sur périphérique.Projets : https://github.com/Gen-Verse/ReasonFlux

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Affinage Supervisé

Modélisation Des Préférences

Benchmarks

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Affinage Supervisé

Modélisation Des Préférences

Benchmarks

Infrastructure D'ia

Approche/Framework

Traitement Du Langage Naturel

Tâche

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReasonFlux-PRM : PRMs Trajectoire-Conscients pour la Raisonnement à Longue Chaîne de Pensée dans les LLMs

Jiaru Zou Ling Yang Jingwen Gu Jiahao Qiu Ke Shen Jingrui He Mengdi Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters