HyperAI
il y a 3 jours

Optimisation de la politique budgétaire hiérarchique pour le raisonnement adaptatif

Shangke Lyu; Linjuan Wu; Yuchen Yan; Xingyu Wu; Hao Li; Yongliang Shen; Peisheng Jiang; Weiming Lu; Jun Xiao; Yueting Zhuang
Optimisation de la politique budgétaire hiérarchique pour le raisonnement adaptatif
Résumé

Les grands modèles de raisonnement atteignent des performances remarquables grâce à une génération étendue de chaînes de raisonnement, mais ils présentent une inefficacité computationnelle importante en appliquant des stratégies de raisonnement uniformes, indépendamment de la complexité du problème. Nous présentons Hierarchical Budget Policy Optimization (HBPO), un cadre d'apprentissage par renforcement qui permet aux modèles d'apprendre des profondeurs de raisonnement spécifiques au problème sans sacrifier leur capacité. HBPO résout le problème fondamental de la dégradation de l'espace d'exploration dans l'entraînement orienté vers l'efficacité, où les pénalités liées à la longueur des sorties systématiquement orientent les modèles loin des chemins de raisonnement nécessaires. Grâce à une exploration hiérarchique du budget, notre approche partitionne les échantillons de simulation en plusieurs sous-groupes avec des budgets de tokens distincts, visant à permettre une allocation efficace des ressources tout en évitant la dégradation de la capacité. Nous introduisons des mécanismes de récompense différenciés qui créent des incitations conscientes du budget, alignées avec la complexité du problème, permettant aux modèles de découvrir des correspondances naturelles entre les exigences de la tâche et l'effort computationnel. Des expériences étendues montrent que HBPO réduit l'utilisation moyenne de tokens de jusqu'à 60,6 % tout en améliorant l'exactitude de 3,14 % sur quatre benchmarks de raisonnement. Contrairement aux méthodes existantes qui imposent des contraintes externes ou s'appuient sur une sélection de modes discrète, HBPO présente un comportement adaptatif émergent où les modèles ajustent automatiquement la profondeur de raisonnement en fonction de la complexité du problème. Nos résultats suggèrent que l'efficacité du raisonnement et la capacité ne sont pas incompatibles de manière intrinsèque, et peuvent être optimisées simultanément par un entraînement hiérarchique bien structuré qui préserve la diversité de l'exploration.