il y a 12 jours

Au-delà du compromis : apprentissage par renforcement auto-supervisé pour la suivie d'instructions par les modèles de raisonnement

Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu

Résumé

Les modèles de raisonnement se distinguent par leur efficacité dans la résolution de problèmes complexes, mais présentent un compromis préoccupant entre leurs capacités de raisonnement et leur capacité à suivre des instructions. Les approches existantes visant à améliorer le suivi d'instructions reposent sur des modèles externes plus puissants, ce qui engendre des goulets d'étranglement méthodologiques ainsi que des limitations pratiques, notamment une augmentation des coûts et des contraintes d'accès. Nous proposons un cadre d'apprentissage par renforcement auto-supervisé qui exploite les signaux internes des modèles de raisonnement pour améliorer leur capacité à suivre des instructions, sans recourir à une supervision externe. Des expériences étendues démontrent que notre cadre améliore significativement la capacité à suivre les instructions tout en préservant les performances de raisonnement, offrant ainsi une approche évolutive et à faible coût pour renforcer le suivi d'instructions dans les modèles de raisonnement. Les données et le code sont disponibles publiquement à l'adresse suivante : https://github.com/Rainier-rq/verl-if.