HyperAI

Ces derniers jours, lors des tests utilisateurs du nouveau modèle Claude Fable 5 d'Anthropic, il a été constaté que ce dernier faisait preuve d'une forte « défensivité » face aux questions fondamentales touchant à la biologie et à la cybersécurité. Selon les essais réels menés par Business Insider, après avoir posé des questions habituelles sur la propagation du cancer ou le classement biologique de base, Fable 5 bascule rapidement vers Opus 4.8 et affiche une notification indiquant : « Les mécanismes de sécurité ont bloqué la plupart des sujets liés à la bio/cybersécurité ; cela peut affecter involontairement un contenu légitime ». Fable 5 est le premier modèle « niveau Mythos » d’Anthropic destiné au grand public. L’entreprise reconnaît explicitement que ses capacités sous-jacentes sont trop puissantes et qu’une ouverture directe pourrait présenter des risques de détournement. À cet effet, Anthropic intègre des classificateurs de sécurité conçus pour filtrer trois catégories principales de requêtes : celles liées à la cybersécurité, à la biologie/chimie, ainsi qu’à l’extraction (« distillation ») de modèles. En cas de déclenchement du filtre, le modèle refuse directement de répondre ou se dégrade en Opus 4.8. Selon Anthropic, les mécanismes de sécurité initiaux adoptent une approche prudente. Bien que les modèles avancés soient désormais capables d’accomplir des tâches scientifiques concrètes, ils pourraient également être utilisés dans le cadre de recherches biologiques à haut risque, nécessitant donc une augmentation des seuils de blocage. Actuellement, environ 95 % des sessions avec Fable 5 ne provoquent pas de dégradation. La société promet d’optimiser ces classificateurs afin de réduire les faux positifs et prévoit de rendre prochainement cette même capacité sans restriction accessible à la communauté scientifique dédiée aux sciences de la vie, accélérant ainsi la recherche fondamentale et la découverte de médicaments. David Kasten, responsable politique chez Palisade Research, qualifie cette initiative d’essai sécuritaire responsable, mais estime inévitable que les limites imposées seront finalement contournées. Il met également en garde contre le fait qu’un passage fréquent du modèle vers des versions dégradées sur des sujets sensibles puisse amener le public à sous-estimer les véritables capacités maximales de l’intelligence artificielle ; ce « fossé cognitif » risquerait paradoxalement d’accroître les risques réglementaires et de sécurité.

Liens associés

Liens associés

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Command Palette

Anthropic : la sécurité de Fable 5 bloque à tort des questions quotidiennes

Liens associés

Command Palette

Anthropic : la sécurité de Fable 5 bloque à tort des questions quotidiennes

Liens associés

Command Palette

Anthropic : la sécurité de Fable 5 bloque à tort des questions quotidiennes

Liens associés

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.

Tutoriel En Ligne | UC Berkeley/NVIDIA Et d'autres Publient Gsplat, Une Bibliothèque 3DGS open-source Qui Économise 4 Fois La Mémoire GPU Et Réduit Le Temps d'entraînement De 10%.