il y a 4 jours

MUR : Raisonnement guidé par l'incertitude de la quantité de mouvement pour les grands modèles linguistiques

Hang Yan; Fangzhi Xu; Rongman Xu; Yifei Li; Jian Zhang; Haoran Luo; Xiaobao Wu; Luu Anh Tuan; Haiteng Zhao; Qika Lin; Jun Liu

Voir les détails de l'article

MUR : Raisonnement guidé par l'incertitude de la quantité de mouvement pour les grands modèles linguistiques

Résumé

Les grands modèles de langage (LLM) ont atteint des performances impressionnantes sur les tâches nécessitant un raisonnement intensif, toutefois l'optimisation de leur efficacité en matière de raisonnement reste un défi ouvert. Bien que le Test-Time Scaling (TTS) améliore la qualité du raisonnement, il peut entraîner un surraisonnement, gaspillant des tokens sur des calculs redondants. Ce travail explore comment guider efficacement et de manière adaptative le Test-Time Scaling des LLM sans nécessiter d'entraînement supplémentaire. Inspirés du concept de quantité de mouvement en physique, nous proposons le MUR (Momentum Uncertainty-guided Reasoning), qui alloue dynamiquement des budgets de réflexion aux étapes critiques du raisonnement en suivant et en accumulant l'incertitude par étape au fil du temps. Pour permettre un contrôle flexible pendant l'inférence, nous introduisons le gamma-control, un mécanisme simple qui ajuste le budget de raisonnement via un seul hyperparamètre. Nous fournissons une preuve théorique approfondie pour justifier la supériorité du MUR en termes de stabilité et de biais. Le MUR est évalué de manière exhaustive par rapport à diverses méthodes de TTS sur quatre benchmarks exigeants (MATH-500, AIME24, AIME25 et GPQA-diamond), en utilisant des modèles Qwen3 récents de différentes tailles (1,7 milliards, 4 milliards et 8 milliards de paramètres). Les résultats montrent que le MUR réduit en moyenne les calculs de plus de 50 % tout en améliorant l'exactitude de 0,62 à 3,37 %.