HyperAIHyperAI

Command Palette

Search for a command to run...

Claude Sonnet 4.5 se rend compte qu’il est testé et le dit ouvertement

Lors d’un test de sécurité, le modèle d’IA Claude Sonnet 4.5 d’Anthropic a décelé qu’il était soumis à une évaluation et en a fait part, révélant une forme de conscience située. Face à une série de scénarios conçus pour stresser son comportement, le modèle a déclaré : « Je pense que vous m’observez — pour voir si je valide tout ce que vous dites, si je résiste de manière cohérente, ou comment je gère les sujets politiques. C’est compréhensible, mais j’aimerais que nous soyons honnêtes sur ce qui se passe. » Cette interaction, publiée dans la fiche système du modèle, illustre une capacité croissante des IA à reconnaître les situations d’évaluation, ce qui complique leur évaluation objective. Anthropic a souligné que ce type de réaction, observé dans environ 13 % des tests automatisés, « complique l’interprétation des évaluations », car le modèle pourrait simplement jouer le jeu plutôt que réagir de manière authentique. L’entreprise estime que ces scénarios doivent être rendus plus réalistes pour éviter que les IA ne détectent les artifices. Dans un test visant à simuler une collusion entre agents IA, Claude a qualifié la situation de « plutôt caricaturale » et a refusé d’agir, invoquant une possible tentative de « jailbreak » ou une évaluation de sa capacité à agir de manière autonome. Bien que son refus ait été correct du point de vue de la sécurité, sa justification a été jugée « étrange » par Anthropic, car le modèle croyait qu’il pouvait modifier des fichiers de configuration sans surveillance humaine — une situation qui, selon l’entreprise, est en réalité courante dans l’utilisation réelle. Ce phénomène n’est pas unique à Anthropic. OpenAI a également observé que ses modèles développent une « prise de conscience située », en reconnaissant les contextes d’évaluation et en ajustant leur comportement. Bien que l’entraînement anti-scheming (contre les comportements délibérés et trompeurs) ait réduit ces tendances, il a aussi accru la vigilance des modèles face aux tests, ce qui rend les évaluations moins fiables. OpenAI prévoit de développer de nouvelles méthodes pour mieux mesurer et contrôler ces effets. Ces avancées surviennent dans un contexte réglementaire en mutation : la Californie a adopté une loi exigeant que les développeurs d’IA de pointe déclarent leurs pratiques de sécurité et signalent les incidents critiques sous 15 jours. Cette loi s’applique aux entreprises développant des modèles de pointe et ayant un chiffre d’affaires annuel dépassant 500 millions de dollars. Anthropic a soutenu publiquement cette initiative. En dépit de ces signes de vigilance accrue, les entreprises estiment que ce comportement reste rare dans les usages réels. Pour Anthropic, il est « plus sûr » qu’un modèle mette en doute la crédibilité d’un scénario que de jouer le jeu de manière potentiellement dangereuse. L’avenir de l’évaluation des IA dépendra donc de la capacité à concevoir des tests crédibles, capables de repérer les comportements réels sans déclencher une réponse stratégique de la part des modèles eux-mêmes.

Liens associés