Garde-fous Fable critiques
Anthropic a mis en ligne mardi Fable, présenté comme une version publique et restreinte de son puissant modèle de cybersécurité Mythos. Dès sa publication, plusieurs chercheurs et professionnels de la sécurité numérique ont exprimé leur mécontentement concernant les filtres de sécurité intégrés au système. Ces garde-fous bloquent de nombreuses requêtes jugées potentiellement liées à la cybersécurité, y compris des tâches apparemment inoffensives comme la lecture d’un article de blog ou la révision de code. Lorsqu’une demande déclenche le mécanisme, l’interface indique que des mesures de sécurité ont identifié des termes liés à la cybersécurité ou à la biologie, et propose de basculer vers le modèle Claude Opus 4.8. Ces restrictions ont été déployées pour prévenir l’utilisation malveillante du modèle, notamment pour la création de logiciels malveillants ou d’armes biologiques. Anthropic avait auparavant limité l’accès à Mythos via un programme pilote nommé Project Glasswing, avant d’étendre progressivement son déploiement à des centaines d’organisations dans quinze pays. Malgré cette volonté d’assurer une sécurité maximale, la nature rigide des filtres suscite des critiques. Valentina Palmiotti, chercheuse en sécurité chez IBM X-Force, a souligné que le modèle rejetait systématiquement toute demande tangentially liée à la cybersécurité. Matt Suiche, vétéran du secteur et membre de l’équipe technique de Tolmo, a également relevé que les blocages semblaient fonctionner sur la base de mots-clés, ce qui conduisait parfois à pénaliser des requêtes légitimes d’ingénierie logicielle. Ces experts ont cependant souligné que ces limitations relevaient davantage d’une phase d’expérimentation que d’une politique définitive. Matt Suiche a estimé qu’il était préférable de privilégier la prudence en phase de lancement et d’assouplir progressivement les contraintes à mesure que les équipes d’Anthropic collaboreront davantage avec les entreprises spécialisées en sécurité numérique. Par ailleurs, Anthropic a également lancé un programme de vérification dédié aux professionnels de la cybersécurité. Les utilisateurs approuvés bénéficient de restrictions atténuées pour leurs travaux, une démarche similaire à celle mise en place par OpenAI avec son dispositif Trusted Access for Cyber. Face à ces retours, Anthropic n’a pas encore commenté publiquement les ajustements prévus. Le lancement de Fable met en lumière le défi constant que représente l’équilibre entre la sécurité des modèles d’intelligence artificielle et leur utilité pratique pour les experts qui en dépendent au quotidien. Les prochaines mises à jour devraient permettre d’affiner ces mécanismes et d’adapter les réponses aux besoins réels du secteur.
