OVM, Modèles de Valeur Supervisés par Résultat pour la Planification dans le Raisonnement Mathématique

Les grands modèles linguistiques (LLM) peinent souvent à maintenir une précision tout au long de plusieurs étapes de raisonnement, en particulier dans le domaine du raisonnement mathématique, où une erreur commise au cours d'une étape préalable peut se propager aux étapes suivantes, conduisant finalement à une réponse incorrecte. Pour réduire la propagation des erreurs, on recourt à une décodage guidé, qui oriente le processus de décodage du modèle de manière itérative, étape par étape. Nous soutenons que, dans le cadre du décodage guidé, évaluer le potentiel d’un parcours de raisonnement incomplet peut s’avérer plus avantageux que de se contenter d’assurer la correction à chaque étape, car cette approche favorise directement l’obtention d’une réponse finale correcte. Cette perspective transforme la tâche en un problème d’estimation de valeur dans le cadre de la planification.S’inspirant de l’observation selon laquelle la supervision par résultat dans le décodage guidé agit essentiellement comme un modèle de valeur, nous proposons un modèle de valeur supervisé par résultat (OVM, Outcome-supervised Value Model), qui utilise la supervision par résultat pour entraîner un modèle de valeur, en privilégiant les étapes qui conduisent à des conclusions exactes. En outre, l’OVM élimine la nécessité d’annotations coûteuses en termes de main-d’œuvre pour la correction au niveau des étapes, ce qui améliore considérablement sa scalabilité. Nos expériences sur deux jeux de données de raisonnement mathématique à plusieurs étapes, GSM8K et Game of 24, démontrent les performances supérieures du modèle OVM. Notamment, sur GSM8K, notre modèle OVM-7B atteint un résultat d’état de l’art parmi les LLM jusqu’à 13 milliards de paramètres, sans faire appel à GPT-4 ni à l’exécution de code. Ces résultats offrent une nouvelle perspective sur le rôle de la supervision par résultat dans l’entraînement de modèles de valeur pour les tâches de raisonnement à plusieurs étapes, tout en apportant une justification théorique de son avantage dans l’estimation de valeur pour le décodage guidé.