HyperAIHyperAI
il y a 3 mois

AlphaMath Presque Zéro : Surveillance du processus sans processus

Guoxin Chen, Minpeng Liao, Chengxi Li, Kai Fan
AlphaMath Presque Zéro : Surveillance du processus sans processus
Résumé

Bien que les progrès récents des grands modèles linguistiques (LLM) aient considérablement amélioré leurs performances sur diverses tâches, ils rencontrent encore des difficultés face au raisonnement multi-étapes complexe et symbolique, en particulier dans le domaine du raisonnement mathématique. Pour renforcer les capacités de raisonnement mathématique des LLM, la plupart des approches existantes s’appuient sur l’assistance de spécialistes du domaine ou de GPT-4 afin d’obtenir des données d’annotation de processus de haute qualité, une démarche à la fois coûteuse et exigeante en main-d’œuvre. Dans cette étude, nous proposons un cadre innovant, AlphaMath, qui élimine la nécessité d’annotations de processus (humaines ou générées par GPT) en exploitant la recherche arborescente de Monte Carlo (MCTS). Ce cadre vise à exploiter pleinement le potentiel d’un LLM bien préentraîné afin de renforcer de manière autonome son raisonnement mathématique. Plus précisément, nous intégrons un modèle de valeur au LLM, permettant de générer automatiquement à la fois des signaux d’annotation de processus et des signaux d’évaluation au niveau des étapes au sein de MCTS. En outre, nous proposons une stratégie d’inférence efficace, appelée recherche en faisceau au niveau des étapes, dans laquelle le modèle de valeur est conçu pour aider le modèle politique (c’est-à-dire le LLM) à explorer des chemins de raisonnement plus efficaces, au lieu de s’appuyer uniquement sur les probabilités a priori. Les résultats expérimentaux sur des jeux de données in-domaine et out-of-domain montrent que, même en l’absence de supervision par GPT-4 ou d’annotations humaines de processus, notre cadre AlphaMath atteint des performances comparables ou supérieures à celles des méthodes de pointe précédentes.