Command Palette
Search for a command to run...
DeepSearch : surmonter le goulot d'étranglement de l'apprentissage par renforcement grâce à des récompenses vérifiables par recherche arborescente de Monte Carlo
Fang Wu Weihao Xuan Heli Qi Ximing Lu Aaron Tu Li Erran Li Yejin ChoiRetry

Résumé
Bien que le RLVR (Reinforcement Learning with Value-based Reasoning) soit devenu un composant essentiel pour le développement de compétences de raisonnement avancées dans les grands modèles linguistiques (LLM), les études récentes ont mis en évidence des plateaux d’apprentissage apparaissant après des milliers d’étapes d’optimisation, illustrant une diminution notable des gains de performance malgré une augmentation substantielle de l’investissement computationnel. Cette limitation provient des schémas d’exploration peu denses inhérents aux pratiques actuelles du RLVR, où les modèles s’appuient sur un nombre restreint de simulations (rollouts) qui manquent souvent des chemins de raisonnement critiques et ne couvrent pas de manière systématique l’espace des solutions. Nous présentons DeepSearch, un cadre intégrant directement la recherche arborescente de Monte Carlo (MCTS) dans le processus d’entraînement du RLVR. Contrairement aux méthodes existantes qui n’utilisent la recherche arborescente qu’à l’étape d’inférence, DeepSearch intègre une exploration structurée dans la boucle d’entraînement, permettant une exploration systématique et une attribution fine des récompenses à chaque étape du raisonnement. Grâce à une exploration effectuée pendant l’entraînement, DeepSearch surmonte le goulot d’étranglement fondamental lié à une exploration insuffisante, qui entrave les améliorations de performance au fil d’étapes d’entraînement prolongées. Nos contributions incluent : (1) une stratégie globale de sélection de frontière qui priorise les nœuds prometteurs à travers l’arbre de recherche ; (2) une sélection guidée par l’entropie, permettant d’identifier les chemins les plus fiables pour une supervision ciblée ; et (3) un entraînement à mémoire de répétition adaptative avec mise en cache des solutions, afin d’améliorer l’efficacité. Des expériences sur des benchmarks de raisonnement mathématique montrent que DeepSearch atteint une précision moyenne de 62,95 %, établissant ainsi un nouveau record d’état de l’art pour les modèles de raisonnement de 1,5 milliard de paramètres — avec seulement 5,7 fois moins d’heures GPU qu’avec des approches d’entraînement étendues. Ces résultats soulignent l’importance d’une exploration stratégique par rapport à une simple montée en échelle brute, et démontrent le potentiel de l’innovation algorithmique pour faire progresser les méthodologies du RLVR. DeepSearch ouvre une nouvelle voie pour échelonner les capacités de raisonnement grâce à une exploration systématique, plutôt que par une simple prolongation des calculs.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.