HyperAIHyperAI

Command Palette

Search for a command to run...

Au-delà du compromis : apprentissage par renforcement auto-supervisé pour la suivie d'instructions par les modèles de raisonnement

Qingyu Ren Qianyu He Bowei Zhang Jie Zeng Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu

Résumé

Les modèles de raisonnement se distinguent par leur efficacité dans la résolution de problèmes complexes, mais présentent un compromis préoccupant entre leurs capacités de raisonnement et leur capacité à suivre des instructions. Les approches existantes visant à améliorer le suivi d'instructions reposent sur des modèles externes plus puissants, ce qui engendre des goulets d'étranglement méthodologiques ainsi que des limitations pratiques, notamment une augmentation des coûts et des contraintes d'accès. Nous proposons un cadre d'apprentissage par renforcement auto-supervisé qui exploite les signaux internes des modèles de raisonnement pour améliorer leur capacité à suivre des instructions, sans recourir à une supervision externe. Des expériences étendues démontrent que notre cadre améliore significativement la capacité à suivre les instructions tout en préservant les performances de raisonnement, offrant ainsi une approche évolutive et à faible coût pour renforcer le suivi d'instructions dans les modèles de raisonnement. Les données et le code sont disponibles publiquement à l'adresse suivante : https://github.com/Rainier-rq/verl-if.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Au-delà du compromis : apprentissage par renforcement auto-supervisé pour la suivie d'instructions par les modèles de raisonnement | Articles | HyperAI