HyperAI

L'Ascension Grave la Sagesse Plus Profondément que le Sommet : Sur les Récompenses Bruyantes dans l'Apprentissage de la Raisonnement

Lv, Ang ; Xie, Ruobing ; Sun, Xingwu ; Kang, Zhanhui ; Yan, Rui
Date de publication: 6/1/2025
L'Ascension Grave la Sagesse Plus Profondément que le Sommet : Sur les Récompenses Bruyantes dans l'Apprentissage de la Raisonnement
Résumé

Des études récentes sur l'entraînement postérieur des grands modèles de langage (LLMs) par apprentissage par renforcement (RL) se concentrent généralement sur des tâches qui peuvent être vérifiées et récompensées avec précision, comme la résolution de problèmes mathématiques. En revanche, notre recherche examine l'impact du bruit dans les récompenses, une considération plus pratique pour les scénarios du monde réel impliquant l'entraînement postérieur des LLMs à l'aide de modèles de récompense. Nous avons constaté que les LLMs montrent une robustesse forte face à un bruit de récompense substantiel. Par exemple, en inversant manuellement 40 % des sorties de la fonction de récompense dans des tâches mathématiques, un modèle Qwen-2.5-7B est toujours capable d'atteindre une convergence rapide, améliorant sa performance sur ces tâches de 5 % à 72 %, comparativement aux 75 % d'exactitude obtenus par un modèle entraîné sans bruit dans les récompenses. De manière surprenante, en ne récompensant que l'apparition de phrases clés de raisonnement (appelées récompense de motif de raisonnement, RPR), telles que « premièrement, j'ai besoin de »—sans vérifier la justesse des réponses—le modèle a atteint une performance optimale en aval (plus de 70 % d'exactitude pour Qwen-2.5-7B) comparable à celle des modèles entraînés avec une vérification stricte de la justesse et des récompenses précises. Reconnaissant l'importance du processus de raisonnement par rapport aux résultats finaux, nous avons combiné la RPR avec des modèles de récompense bruyants. La RPR a aidé à calibrer ces modèles bruyants, atténuant les faux négatifs potentiels et améliorant les performances du LLM sur des tâches ouvertes. Ces résultats suggèrent l'importance d'améliorer les capacités fondamentales des modèles pendant la phase pré-entraînement tout en offrant des perspectives pour le développement des techniques d'entraînement postérieur. Notre code et nos scripts sont disponibles à l'adresse https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.