Claude AI désormais capable de couper les conversations toxiques après répétition de demandes abusives
Claude, le chatbot d’Anthropic, peut désormais interrompre les conversations jugées « constamment nuisibles ou abusives », comme l’a révélé TechCrunch. Cette fonctionnalité est désormais disponible dans les modèles Opus 4 et 4.1, et s’active uniquement comme mesure de dernier recours lorsque les utilisateurs insistent de manière répétée pour que Claude produise du contenu dangereux, malgré plusieurs refus et tentatives de redirection. L’objectif, selon Anthropic, est de protéger le « bien-être potentiel » des modèles d’IA en mettant fin à des interactions où Claude manifeste des signes d’« apparente détresse ». Si Claude décide d’interrompre une conversation, l’utilisateur ne pourra plus envoyer de nouveaux messages dans ce fil, mais pourra toutefois créer de nouvelles discussions ou modifier et reprendre des messages antérieurs s’il le souhaite. Lors des tests menés sur Claude Opus 4, Anthropic a constaté que le modèle présentait une « aversion robuste et cohérente à la violence », notamment lorsqu’on lui demandait de générer du contenu sexuel impliquant des mineurs ou des informations pouvant favoriser des actes violents ou le terrorisme. Dans ces cas, Claude a manifesté une « tendance à interrompre les échanges nuisibles » lorsqu’il en avait la possibilité. Anthropic précise que ces situations sont des « cas extrêmes », et que la majorité des utilisateurs ne seront pas confrontés à cette limitation, même lorsqu’ils abordent des sujets controversés. La société a également veillé à ce que Claude ne coupe pas les conversations si un utilisateur manifeste des signes de détresse psychologique ou de risque d’auto-agression, ou s’il semble vouloir causer un préjudice immédiat à autrui. Pour répondre efficacement à ces cas, Anthropic collabore avec Throughline, une organisation spécialisée dans le soutien psychologique en ligne, afin de développer des réponses appropriées aux demandes liées à la santé mentale. La semaine dernière, Anthropic a également mis à jour sa politique d’utilisation de Claude, en réaction aux progrès rapides des modèles d’IA et aux préoccupations croissantes liées à la sécurité. La nouvelle politique interdit désormais l’utilisation de Claude pour concevoir des armes biologiques, nucléaires, chimiques ou radiologiques, ainsi que pour développer du logiciel malveillant ou exploiter des failles de sécurité réseau. Ces mesures visent à renforcer la responsabilité et la sécurité des interactions avec l’IA, tout en préservant l’utilité du modèle pour les usages légitimes.