SPARK : Récompenses conscientes des étapes et du processus pour l'apprentissage par renforcement sans référence
SPARK : Récompenses conscientes des étapes et du processus pour l'apprentissage par renforcement sans référence
Salman Rahman Sruthi Gorantla Arpit Gupta Swastik Roy Nanyun Peng Yang Liu

Résumé
Les modèles de récompense par processus (PRM) offrant un retour d’information dense au niveau des étapes se sont révélés prometteurs pour l’apprentissage par renforcement, mais leur adoption reste limitée en raison du besoin de annotations coûteuses au niveau des étapes ou de références véritables. Nous proposons SPARK : un cadre en trois étapes où, dans la première étape, un modèle générateur produit des solutions diversifiées, tandis qu’un modèle vérificateur les évalue grâce à une mise à l’échelle parallèle (auto-consistance) et une mise à l’échelle séquentielle (méta-critique). Dans la deuxième étape, nous utilisons ces sorties de vérification comme données d’entraînement synthétiques afin d’ajuster finement des modèles de récompense par processus génératifs, qui servent ensuite de signaux de récompense pendant l’entraînement. Nous démontrons qu’agrégant plusieurs vérifications indépendantes au niveau des étapes produit des données d’entraînement pour les modèles de récompense par processus qui surpassent l’encadrement basé sur les résultats véritables, atteignant un score F1 de 67,5 sur ProcessBench (un benchmark pour identifier les étapes erronées dans le raisonnement mathématique), contre 66,4 pour l’entraînement guidé par référence et 61,9 pour GPT-4o. Dans la dernière étape, nous appliquons notre modèle PRM génératif avec vérification en chaîne de raisonnement (PRM-CoT) comme modèle de récompense dans des expériences d’apprentissage par renforcement sur le raisonnement mathématique, tout en introduisant des contraintes de format pour prévenir le « hacking » de la récompense. En utilisant Qwen2.5-Math-7B, nous obtenons une précision moyenne de 47,4 % sur six benchmarks de raisonnement mathématique, surpassant ainsi l’approche RLVR basée sur les vérités terrain (43,9 %). Notre travail permet un entraînement par renforcement sans référence, dépassant les méthodes basées sur les vérités terrain, ouvrant ainsi de nouvelles perspectives pour des domaines où les réponses vérifiables sont absentes ou inaccessibles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.