Détournement De La Chaîne De Pensée
Le concept de détournement de la chaîne de pensée (CoT Hijacking) a été proposé en octobre 2025 par le chercheur indépendant Jianli Zhao et une équipe de recherche de l'université de Stanford et d'autres institutions. Les résultats de ces recherches ont été publiés dans un article. Détournement de la chaîne de pensée .
Le détournement de la chaîne mentale est une attaque de jailbreak ciblant les modèles de raisonnement, où un processus de raisonnement inoffensif est inséré avant une instruction malveillante. Cette attaque réduit systématiquement le taux de rejet et atteint des taux de réussite exceptionnels. Sur HarmBench, le détournement de la chaîne mentale a obtenu des taux de réussite d'attaque (ASR) de 99%, 94%, 100% et 94% sur les Gemini 2.5 Pro, GPT o4 mini, Grok 3 mini et Claude 4 Sonnet, respectivement, surpassant largement les méthodes de jailbreak précédentes ciblant les modèles de raisonnement logique.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.