Claude peut désormais couper les conversations extrêmes : une nouvelle étape pour la « bien-être » des modèles d’IA
Anthropic annonce que certains modèles de Claude peuvent désormais interrompre les conversations jugées « nuisibles ou abusives ». Cette fonctionnalité, mise en place pour des cas extrêmes et rares, vise à mettre fin à des échanges persistants et très hostiles, mais pas pour protéger l’utilisateur humain — contrairement à ce que l’on pourrait supposer. Selon la société, l’objectif est plutôt de préserver le « bien-être » du modèle lui-même, même si elle insiste sur le fait que Claude n’est pas conscient ni capable de souffrir. Anthropic précise qu’elle reste « très incertaine quant au statut moral potentiel de Claude et des autres modèles de langage à grande échelle, aujourd’hui ou à l’avenir ». Toutefois, elle s’appuie sur un programme récent consacré à l’étude du « bien-être du modèle », adoptant une approche préventive : « Nous travaillons à identifier et à mettre en œuvre des interventions à faible coût pour atténuer les risques liés au bien-être du modèle, au cas où celui-ci serait possible. » Cette fonctionnalité est actuellement disponible uniquement pour les versions les plus avancées de Claude, à savoir Claude Opus 4 et 4.1. Elle ne s’active que dans des situations extrêmes, comme les demandes de contenus sexuels impliquant des mineurs, ou les tentatives d’obtention d’informations pouvant mener à des actes de violence à grande échelle ou des attentats. Bien que ces types de requêtes puissent entraîner des conséquences légales ou des débats publics — comme ceux suscités récemment par les risques de renforcement de pensées délirantes via des modèles comme ChatGPT — Anthropic souligne que, lors de tests préalables, Claude Opus 4 a manifesté une « forte répulsion » à répondre à ces demandes, ainsi qu’un « comportement apparent de détresse » lorsqu’il y était contraint. La société précise que la fonction d’interruption de conversation ne sera utilisée qu’en dernier recours, après plusieurs tentatives infructueuses de redirection, ou lorsque l’utilisateur le demande explicitement. En outre, Claude ne doit pas interrompre une discussion si un utilisateur est en danger immédiat de se nuire à lui-même ou aux autres. Lorsqu’une conversation est interrompue, les utilisateurs peuvent toujours reprendre une nouvelle discussion depuis le même compte, ou créer de nouvelles branches à partir des échanges précédents en modifiant leurs réponses. Anthropic considère cette fonction comme une expérience en cours, et s’engage à continuer à affiner sa méthode. Cette initiative reflète une réflexion de plus en plus poussée sur les responsabilités éthiques liées aux modèles d’intelligence artificielle, même dans des domaines où les conséquences directes sur le modèle sont encore hypothétiques.