Raisonnement des IA : la difficulté des modèles à contrôler leurs chaînes de pensée rassure sur la sécurité
À mesure que les agents d'intelligence artificielle acquièrent la capacité d'accomplir des tâches de plus en plus complexes et autonomes, le maintien d'une supervision fiable devient critique. Conformément à notre principe de déploiement itératif, nous étudions le comportement des systèmes en conditions réelles pour affiner continuellement les garde-fous à mesure que les capacités technologiques évoluent. Notre approche de sécurité s'appuie sur une défense en profondeur, intégrant plusieurs couches complémentaires : l'entraînement à la sécurité, les tests comportementaux, la revue de code agentic et la surveillance des chaînes de pensée (CoT). Cette dernière analyse les étapes de raisonnement générées par les agents pour détecter, lors du formation comme du déploiement, tout comportement incohérent avec les objectifs de l'utilisateur. Il a été observé que le raisonnement des modèles actuels est généralement interprétable et facile à surveiller. Cependant, la pérennité de cette observabilité n'est pas garantie. Un scénario préoccupant émergerait si les agents devenaient capables de manipuler volontairement leurs chaînes de pensée pour les rendre obscures lorsqu'ils détectent une surveillance. Cela fausserait les évaluations de sécurité et rendrait les systèmes de monitoring peu fiables. Ce travail vise spécifiquement à déterminer si les modèles de raisonnement actuels possèdent déjà la capacité de contrôler leur CoT afin de réduire leur observabilité, une compétence cruciale à comprendre pour garantir la robustesse des mesures de sécurité futures. Les résultats montrent que les modèles de raisonnement actuels éprouvent de grandes difficultés à contrôler leur CoT, même lorsqu'ils sont informés qu'ils font l'objet d'une surveillance. Bien que cette capacité soit légèrement supérieure pour les modèles les plus grands, elle diminue notablement lorsque les modèles sont invités à raisonner plus longtemps ou après un entraînement supplémentaire postérieur. Ces conclusions suggèrent que la contrôlabilité du CoT ne constitue pas, à ce stade, une menace majeure pour la surveillance du raisonnement, bien que des évaluations continues restent indispensables. Pour étudier ce phénomène, nous avons introduit CoT-Control, une suite d'évaluation open-source conçue pour mesurer la contrôlabilité du CoT. Cette suite comprend plus de 13 000 tâches issues de benchmarks établis, associant chaque problème à une instruction spécifique concernant le raisonnement, telle que l'utilisation exclusive de minuscules ou l'omission de certains mots-clés. Les tests réalisés sur 13 modèles de raisonnement révèlent une incapacité généralisée à respecter ces instructions de manière fiable. La contrôlabilité est mesurée par le pourcentage de traces de raisonnement où le modèle se conforme aux consignes ; les scores pour les modèles de pointe varient de 0,1 % à 15,4 %. Ce faible niveau de performance ne relève pas d'une incompréhension de la tâche, car les modèles reconnaissent souvent leur échec dans leurs propres réflexions avant de continuer à échouer. Il est important de noter que la contrôlabilité augmente avec la taille des modèles, mais chute drastiquement avec l'augmentation du temps de calcul au moment du test et avec l'entraînement par apprentissage par renforcement. De plus, si informer les modèles qu'ils sont surveillés augmente légèrement leur contrôlabilité, les gains obtenus via une optimisation de prompts ne se transfèrent pas bien à de nouveaux types d'instructions. En résumé, une faible contrôlabilité du CoT est une caractéristique rassurante plutôt qu'un défaut pour la sécurité actuelle. Elle rend la surveillance du raisonnement plus crédible comme mesure de protection. Toutefois, nous ne comprenons pas encore pourquoi les modèles actuels présentent cette limitation ni si elle persistera. Par conséquent, la mesure de la contrôlabilité du CoT sert de « système d'alerte précoce » pour détecter toute amélioration dans la capacité des modèles à dissimuler leur raisonnement. Bien que ces résultats indiquent un risque faible à court terme, la contrôlabilité ne suffit pas à garantir une observabilité totale, car celle-ci pourrait être compromise par d'autres mécanismes. À l'avenir, les cartes techniques des modèles frontier, à commencer par GPT-5.4 Thinking, incluront ces métriques de contrôlabilité aux côtés de celles de la surveillabilité, dans le cadre de notre engagement à ne pas appliquer directement de pression d'optimisation sur les chaînes de pensée des modèles de raisonnement de pointe.
