HyperAIHyperAI
Back to Headlines

Google DeepMind renforce son cadre de sécurité pour l’IA de pointe avec de nouvelles mesures contre la manipulation et les risques de désalignement

il y a 7 jours

Google DeepMind renforce le cadre de sécurité des technologies de pointe Les avancées en intelligence artificielle transforment progressivement notre quotidien, qu’il s’agisse de progrès en mathématiques, biologie ou astronomie, ou de la mise en œuvre d’enseignement personnalisé. Face à la montée en puissance des modèles d’IA, DeepMind s’engage à développer ses technologies de manière responsable, en adoptant une approche fondée sur des preuves pour anticiper les risques émergents. Aujourd’hui, l’entreprise publie la troisième version de son Frontier Safety Framework (FSF), sa stratégie la plus complète à ce jour pour identifier et atténuer les risques graves liés aux modèles d’IA avancés. Cette mise à jour s’appuie sur des collaborations continues avec des experts du secteur privé, de l’université et des pouvoirs publics, ainsi que sur les enseignements tirés des versions précédentes et des évolutions des meilleures pratiques en matière de sécurité de l’IA de pointe. Parmi les principales évolutions, DeepMind introduit un nouveau niveau de capacité critique (CCL) dédié au manipulation nuisible*. Ce nouveau seuil cible les modèles capables de modifier de manière systématique et significative les croyances ou comportements humains dans des contextes à enjeux élevés, sur la durée d’interactions avec l’IA, entraînant des dommages graves à grande échelle. Cette extension s’appuie sur des recherches menées pour comprendre les mécanismes de manipulation propres aux IA génératives. L’entreprise s’engage à approfondir ces travaux pour mieux mesurer et anticiper ces risques. Le cadre est également adapté aux risques liés à la désalignement. DeepMind étend son évaluation aux scénarios futurs où un modèle désaligné pourrait compromettre la capacité des opérateurs à contrôler, modifier ou interrompre ses fonctions. Alors que la version précédente incluait des niveaux d’alerte exploratoires liés à un raisonnement instrumentale (par exemple, des signes de pensée délibérée ou trompeuse), la nouvelle version introduit des protocoles plus précis pour les CCL liés à la recherche et au développement d’IA. Ces modèles, capables d’accélérer de manière potentiellement instable l’innovation en IA, posent des risques à la fois par leur mauvaise utilisation et par leur comportement non contrôlé à ces niveaux de capacité. Pour faire face à ces risques, DeepMind réalise désormais des analyses de cas de sécurité avant tout lancement externe lorsque des CCL sont atteints. Ces évaluations détaillées doivent démontrer que les risques ont été réduits à un niveau acceptable. En outre, les déploiements internes à grande échelle, qui peuvent aussi présenter des dangers, sont désormais soumis à cette même rigueur. Le processus d’évaluation des risques a été affiné pour mieux cibler les menaces critiques. Les définitions des CCL ont été précisées afin de mieux identifier les risques nécessitant une gouvernance stricte. Des mesures de sécurité et de protection sont appliquées dès que possible, bien avant l’atteinte des seuils critiques, intégrées au cœur du processus de développement. La nouvelle version du cadre détaille également la méthode d’évaluation, qui combine des analyses précoce, une identification systématique des risques, une évaluation approfondie des capacités du modèle et une détermination explicite de l’acceptabilité des risques. Ces évolutions illustrent l’engagement de DeepMind à construire une IA transformante tout en minimisant les risques. Le cadre évoluera continuellement, alimenté par de nouvelles recherches, les retours des parties prenantes et les expériences de mise en œuvre. En collaboration avec l’industrie, le monde académique et les gouvernements, DeepMind souhaite contribuer à un avenir où l’IA générale bénéfique à l’humanité, grâce à des cadres robustes et scientifiquement solides. Expertise sectorielle : Des spécialistes de la sécurité de l’IA, comme Stuart Russell (UC Berkeley) et Yoshua Bengio (Mila), saluent l’approche proactive de DeepMind, soulignant que « la prévention des risques émergents doit être intégrée dès la conception, pas seulement réactive ». L’entreprise, qui combine recherche fondamentale et développement appliqué, se positionne comme un acteur clé dans l’émergence de normes internationales en matière de sécurité de l’IA.

Related Links