HyperAI
Back to Headlines

ReasonFlux-PRM : Un Modèle de Récompense Trajectoire-Aware pour Améliorer la Raisonnement en Chaîne dans les LLMs

il y a 2 jours

ReasonFlux-PRM : Un Modèle de Récompense Conscient des Trajectoires pour Améliorer la Raisonnement par Chaîne de Pensée dans les Modèles Linguistiques Grands Les modèles linguistiques grands (LLMs) sont de plus en plus utilisés pour résoudre des tâches complexes comme les mathématiques et le raisonnement scientifique en adoptant des approches de chaîne de pensée structurée. Ces modèles ne fournissent pas simplement des réponses immédiates ; ils passent par une série d'étapes intermédiaires qui simulent des processus logiques. Cette méthode permet non seulement une meilleure précision dans le raisonnement mais aussi une traçabilité plus claire des erreurs. À mesure que les modèles deviennent plus sophistiqués, il est crucial de ne pas évaluer uniquement les réponses finales, mais aussi les étapes de raisonnement qui y mènent. Limitations des Modèles de Récompense Traditionnels Un problème majeur avec les modèles de récompense actuels (PRMs) est qu'ils ne jugent que les réponses finales, sans tenir compte du parcours de raisonnement qui y conduit. Des modèles de pointe comme Deepseek-R1 génèrent des chaînes de raisonnement étendues avant de produire une réponse finale, et ces paires trajet-réponse sont réutilisées pour entraîner des modèles plus petits. Le hic est que les PRMs traditionnels ne sont pas conçus pour évaluer ces parcours complets, ce qui entraîne une supervision peu fiable pouvant dégrader les performances des modèles plus petits formés sur des données de type trajet-réponse. Défis liés aux Chaînes de Raisonnement Désorganisées Les PRMs traditionnels sont principalement calibrés pour des sorties structurées et propres, et non pour des chaînes de raisonnement longues et désorganisées générées par les LLMs avancés. Même des PRMs avancés comme Qwen2.5-Math-PRM-72B ont montré une capacité limitée à distinguer entre un raisonnement intermédiaire de qualité élevée et de qualité inférieure. Lorsqu'ils sont appliqués à des sorties trajet-réponse de modèles comme Gemini ou Deepseek-R1, ces modèles produisent souvent des scores de récompense superposés, indiquant une discrimination faible. Cette insensibilité entraîne une sélection de données de mauvaise qualité pour le calage ultérieur, et des expériences confirment que les modèles formés sur des données choisies par PRM performe moins bien que ceux formés sur des ensembles de données curés par des humains. Présentation de ReasonFlux-PRM En réponse à ces défis, les chercheurs de l'Université de l'Illinois à Urbana-Champaign (UIUC), de l'Université de Princeton, de l'Université Cornell et de ByteDance Seed ont introduit ReasonFlux-PRM. Ce nouveau modèle de récompense est conçu pour évaluer à la fois les étapes intermédiaires et la réponse finale, intégrant ainsi une évaluation au niveau des étapes et au niveau des trajectoires. Cette approche permet une compréhension plus nuancée de la qualité du raisonnement. ReasonFlux-PRM a été formé sur un ensemble de données de 10 000 échantillons de problèmes de mathématiques et de science soigneusement curés pour refléter des formats de problèmes trajet-réponse réels. Cadre Technique de ReasonFlux-PRM Techniquement, ReasonFlux-PRM fonctionne en évaluant chaque étape intermédiaire d'une trajectoire en fonction de sa contribution à la réponse finale. Il utilise une fonction de récompense de référence qui prend en compte le stimulus initial, les étapes de raisonnement précédentes et la sortie finale pour assigner des scores au niveau des étapes. Ces scores sont ensuite agrégés pour produire un score de récompense total pour la trajectoire. Le modèle supporte plusieurs applications, notamment : - Filtrage hors ligne de données de formation de haute qualité : permet de sélectionner les meilleures données pour l'entraînement. - Fourniture de récompenses denses lors de l'apprentissage par renforcement : utilise l'optimisation de la politique basée sur GRPO (Guided Reward Policy Optimization) pour améliorer l'apprentissage. - Sélection de réponses au moment des tests : choisir la meilleure réponse parmi plusieurs en fonction de la qualité de la trajectoire, améliorant ainsi la qualité de l'inférence. Résultats Empiriques sur des Benchmarks de Raisonnement L'évaluation des performances de ReasonFlux-PRM sur divers benchmarks comme AIME, MATH500 et GPQA-Diamond a montré des résultats impressionnants. Spécifiquement, ReasonFlux-PRM-7B a surpassé Qwen2.5-Math-PRM-72B et les datasets curés par des humains sur plusieurs métriques clés. Il a notamment réalisé : - Une augmentation de 12.1% de l'exactitude lors du calage supervisé - Une amélioration de 4.5% lors de l'apprentissage par renforcement - Une hausse de 6.3% pendant le test à grande échelle Ces gains sont particulièrement significatifs Considering that ReasonFlux-PRM est un modèle plus petit en volume. Le tableau 1 montre que le modèle Qwen2.5-14B-Instruct, formé sur des données sélectionnées par ReasonFlux-PRM, a atteint des niveaux de performance proches voire supérieurs aux datasets curés par des humains. En revanche, d'autres PRMs ont entrainé des baisses de performance allant jusqu'à 26.6% dans certains benchmarks. Impact et Directions Futurs Cette recherche souligne une limitation cruciale dans l'entraînement et l'évaluation des modèles de raisonnement modernes. En permettant la supervision des trajets de pensée et des réponses finales, ReasonFlux-PRM améliore la qualité des données d'entraînement et la fiabilité des réponses du modèle. Il ouvre une nouvelle voie pour évaluer systématiquement et améliorer les processus de raisonnement dans les grands modèles. Évaluation de l'Industrie Les experts du secteur saluent l'innovation de ReasonFlux-PRM, affirmant qu'elle pourrait devenir un standard pour l'évaluation du raisonnement dans les modèles linguistiques. La flexibilité et la capacité du modèle à améliorer la sélection des données de formation et la précision des réponses lors de l'inférence en font un outil précieux pour les recherches en apprentissage profond et en traitement du langage naturel. ByteDance, l'un des partenaires de cette recherche, est une entreprise technologique de premier plan spécialisée dans le développement de solutions d'IA, notamment dans les domaines du traitement du langage naturel et de la recommandation personnalisée. La collaboration entre UIUC, Princeton, Cornell et ByteDance Seed souligne l'importance accordée à l'innovation académique et industrielle dans le domaine de l'IA. Pour plus d'informations, consultez la publication officielle et la page GitHub. Tous les crédits reviennent aux chercheurs de ce projet. Suivez-nous également sur Twitter et rejoignez notre sous-Reddit de Machine Learning avec plus de 100 000 membres pour rester à jour sur les dernières avancées dans le domaine.

Related Links