HyperAI
il y a 9 jours

Cadre de gestion des risques liés à l'intelligence artificielle de pointe en pratique : Rapport technique d'analyse des risques

Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, et al
Cadre de gestion des risques liés à l'intelligence artificielle de pointe en pratique : Rapport technique d'analyse des risques
Résumé

Afin de comprendre et d'identifier les risques sans précédent posés par les modèles d'intelligence artificielle (IA) en développement rapide, ce rapport présente une évaluation approfondie de leurs risques de pointe. S'appuyant sur l'analyse E-T-C (environnement de déploiement, source de menace, capacité d'incitation) du Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework), nous identifions les risques critiques dans sept domaines : offensive cybernétique, risques biologiques et chimiques, persuasion et manipulation, recherche et développement (R&D) d'IA autonome non contrôlée, tromperie stratégique et machination, auto-replication, et collusion. Guidés par le « AI-Law », nous évaluons ces risques à l'aide de « lignes rouges » (seuils intolérables) et de « lignes jaunes » (indicateurs d'alerte précoce), afin de définir des zones de risque : zone verte (risque gérable pour le déploiement ordinaire et le suivi continu), zone jaune (nécessitant des mesures de mitigation renforcées et un déploiement contrôlé), et zone rouge (exigeant la suspension du développement et/ou du déploiement). Les résultats expérimentaux montrent que tous les modèles d'IA de pointe récents se trouvent dans les zones verte et jaune, sans franchir les lignes rouges. Plus précisément, aucun modèle évalué ne franchit la ligne jaune pour les risques liés à l'offensive cybernétique ou au R&D d'IA autonome non contrôlée. Concernant l'auto-replication et la tromperie stratégique et la machination, la plupart des modèles se trouvent dans la zone verte, à l'exception de certains modèles de raisonnement qui se situent dans la zone jaune. Dans le domaine de la persuasion et de la manipulation, la plupart des modèles se trouvent dans la zone jaune en raison de leur efficacité dans l'influence sur les humains. Pour les risques biologiques et chimiques, nous ne pouvons pas écarter la possibilité que la plupart des modèles se situent dans la zone jaune, bien que des modélisations de menaces détaillées et des évaluations approfondies soient nécessaires pour affirmer davantage. Ce travail reflète notre compréhension actuelle des risques liés à l'IA de pointe et appelle à une action collective pour atténuer ces défis.