HyperAI
il y a 9 jours

L'Attelage invisible : pourquoi le RLVR ne peut-il pas s'échapper de son origine

Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi
L'Attelage invisible : pourquoi le RLVR ne peut-il pas s'échapper de son origine
Résumé

Les récents progrès des grands modèles de raisonnement mettent en évidence l'apprentissage par renforcement avec récompenses vérifiables (RLVR) comme une méthode prometteuse pour améliorer les capacités de l'intelligence artificielle, notamment pour résoudre des tâches logiques complexes. Cependant, il reste incertain si le RLVR élargit réellement la frontière du raisonnement d'un modèle ou s'il ne fait que amplifier les sorties à haut rendement que le modèle de base connaît déjà, afin d'améliorer la précision. Cette étude présente une investigation théorique et empirique qui apporte de nouvelles perspectives sur les limites potentielles du RLVR.D'abord, nous proposons une nouvelle perspective théorique : le RLVR est limité par le support du modèle de base – il ne peut pas échantillonner des solutions dont la probabilité initiale est nulle – et fonctionne comme un mécanisme de réévaluation conservateur, qui peut restreindre la découverte de solutions entièrement originales. Nous identifions également un compromis entre l'entropie et la récompense : bien que le RLVR améliore de manière fiable la précision, il peut progressivement réduire l'exploration et potentiellement ignorer des solutions correctes mais sous-représentées. Des expériences empiriques approfondies confirment que, bien que le RLVR améliore constamment le taux de réussite (pass@1), la réduction du support empirique dépasse généralement l'expansion du support empirique sous de plus grands budgets d'échantillonnage, ce qui empêche la récupération des réponses correctes qui étaient auparavant accessibles au modèle de base.Curieusement, nous observons également que, bien que le RLVR augmente parfois l'entropie au niveau des tokens, entraînant une plus grande incertitude à chaque étape de génération, l'entropie au niveau des réponses diminue, indiquant que ces chemins apparemment plus incertains convergent finalement vers un ensemble plus restreint de réponses distinctes. Ensemble, ces résultats révèlent des limites potentielles du RLVR dans l'élargissement des horizons de raisonnement. Briser cette contrainte invisible peut nécessiter des innovations algorithmiques futures, telles que des mécanismes d'exploration explicites ou des stratégies hybrides qui distribuent une masse de probabilité dans les régions de solutions sous-représentées.