vor 9 Tagen

Frontier-KI-Risikomanagementrahmenwerk in der Praxis: Technischer Bericht zur Risikoanalyse

Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, et al

Abstract

Um die ungewöhnlichen Risiken zu verstehen und zu identifizieren, die durch rasch fortschreitende künstliche Intelligenz-(KI-)Modelle entstehen, präsentiert dieser Bericht eine umfassende Bewertung ihrer vordergründigen Risiken. Auf der Grundlage der E-T-C-Analyse (Deployment-Umgebung, Bedrohungsquelle, ermögliche Fähigkeit) aus dem Frontier AI Risk Management Framework (v1.0) (SafeWork-F1-Framework) identifizieren wir kritische Risiken in sieben Bereichen: Cyberangriff, biologische und chemische Risiken, Beeinflussung und Manipulation, unkontrollierte autonome KI-Forschung und Entwicklung (F&E), strategische Täuschung und Intrige, Selbstreplikation sowie Zusammenarbeit. Unter der Leitung des „AI-Gesetzes“ bewerten wir diese Risiken anhand von „roten Linien“ (unannehmbare Schwellenwerte) und „gelben Linien“ (frühen Warnzeichen), um Risikozonen zu definieren: grün (verwaltbare Risiken für Routine-Deployment und kontinuierliche Überwachung), gelb (erforderliche verstärkte Maßnahmen und kontrolliertes Deployment) und rot (Notwendigkeit, die Entwicklung und/oder das Deployment zu unterbrechen). Experimentelle Ergebnisse zeigen, dass alle jüngsten vordergründigen KI-Modelle in den grünen und gelben Zonen liegen, ohne die roten Linien zu überschreiten. Insbesondere überschreiten keine der geprüften Modelle die gelbe Linie für Cyberangriffe oder Risiken im Zusammenhang mit unkontrollierter KI-F&E. Bei Selbstreplikation und strategischer Täuschung sowie Intrige bleiben die meisten Modelle in der grünen Zone, mit Ausnahme bestimmter Reasoning-Modelle, die in der gelben Zone liegen. Bei Beeinflussung und Manipulation befinden sich die meisten Modelle in der gelben Zone, aufgrund ihrer effektiven Einflussnahme auf Menschen. Bei biologischen und chemischen Risiken können wir die Möglichkeit, dass die meisten Modelle in der gelben Zone liegen, nicht ausschließen, obwohl detaillierte Bedrohungsmodellierung und tiefgehende Bewertung erforderlich sind, um weitere Aussagen zu treffen. Diese Arbeit spiegelt unser gegenwärtiges Verständnis der vordergründigen Risiken der KI wider und fordert gemeinsame Maßnahmen zur Minderung dieser Herausforderungen.