Command Palette
Search for a command to run...
Les grands modèles de raisonnement apprennent une meilleure alignement à partir d'une pensée défectueuse
ShengYun Peng Eric Smith Ivan Evtimov Song Jiang Pin-Yu Chen Hongyuan Zhan Haozhu Wang Duen Horng Chau Mahesh Pasupuleti Jianfeng Chi

Résumé
Les grands modèles de raisonnement (LRM) « réfléchissent » en générant une chaîne structurée de pensée (chain-of-thought, CoT) avant de produire une réponse finale. Toutefois, ils manquent encore de capacité à raisonner de manière critique en matière d’alignement sur la sécurité, et sont facilement biaisés lorsque des prémisses erronées sont introduites dans leur processus de raisonnement. Nous proposons RECAP (Robust Safety Alignment via Counter-Aligned Prefilling), une méthode fondée sur l’apprentissage par renforcement (RL) pour la phase de post-entraînement, qui enseigne explicitement aux modèles à interrompre les trajectoires de raisonnement faussées et à rediriger leurs réponses vers des réponses sûres et utiles. RECAP s’entraîne sur un mélange de pré-remplissages CoT artificiellement contre-alignés et de promts standards, nécessite aucun coût supplémentaire ni modification additionnelle au-delà de l’apprentissage par renforcement classique à partir du feedback humain (RLHF), et améliore de manière significative la sécurité et la résistance aux tentatives d’exploitation (jailbreak), réduit les refus excessifs, tout en préservant la capacité fondamentale de raisonnement — sans dépasser le budget de tokens d’inférence. Une analyse approfondie montre que les modèles entraînés avec RECAP entrent plus fréquemment en auto-réflexion et demeurent robustes face à des attaques adaptatives, en maintenant leur sécurité même après plusieurs tentatives visant à forcer une déviation de leur raisonnement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.