Command Palette
Search for a command to run...
Vecteurs de raisonnement : Transfert de capacités de chaîne de raisonnement par arithmétique de tâches
Mohammad Zbeeb Hasan Abed Al Kader Hammoud Bernard Ghanem

Résumé
Les modèles linguistiques à grande échelle nécessitent souvent une optimisation coûteuse, telle que l’apprentissage par renforcement, pour maîtriser des tâches complexes de raisonnement. Ce travail démontre qu’une capacité de raisonnement, une fois acquise, peut être extraite et transférée entre modèles sous la forme d’un vecteur de tâche compact. Nous utilisons deux modèles Qwen2.5 initialement identiques, disponibles publiquement : l’un est affiné par apprentissage supervisé (SFT), l’autre par optimisation politique relative par groupe (GRPO), sur le même jeu de données. À partir de ces deux modèles, nous extrayons un vecteur de raisonnement : v_{reason} = theta_{GRPO} - theta_{SFT}. Nous supposons que ce vecteur capture la capacité de raisonnement instillée par l’apprentissage par renforcement, tout en éliminant les connaissances partagées issues du processus SFT. Lorsqu’il est ajouté à des modèles adaptés à des instructions compatibles par une simple opération arithmétique, ce vecteur améliore de manière cohérente les performances sur diverses évaluations de raisonnement : GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) et BigBenchHard (+12,3 % pour le modèle de 1,5 milliard de paramètres). Ces améliorations se maintiennent même en conditions adverses. À l’inverse, soustraire ce vecteur entraîne une dégradation importante des performances (-11,8 % sur GSM8K), ce qui confirme son rôle crucial dans la capacité de raisonnement du modèle. Ce travail montre comment des capacités de raisonnement, généralement développées grâce à des entraînements coûteux, peuvent être extraites de modèles open source existants et réutilisées grâce à des opérations arithmétiques simples sur des tenseurs, offrant ainsi une approche pratique pour améliorer les modèles en valorisant les investissements computationnels antérieurs.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.