9 days ago

前沿人工智能风险管理框架实践：风险分析技术报告

Xiaoyang Chen, Yunhao Chen, Zeren Chen, Zhiyun Chen, Hanyun Cui, Yawen Duan, et al

摘要

为了理解和识别快速发展的人工智能（AI）模型所带来的前所未有的风险，本报告对这些前沿风险进行了全面评估。基于《前沿人工智能风险管理框架》（v1.0）（SafeWork-F1-Framework）中的E-T-C分析（部署环境、威胁源、赋能能力），我们确定了七个关键领域的风险：网络攻击、生物和化学风险、说服与操纵、不受控制的人工智能研发、战略欺骗与策划、自我复制以及共谋。在“AI法律”的指导下，我们使用“红线”（不可容忍的阈值）和“黄线”（早期预警指标）来定义风险区域：绿色（常规部署和持续监控下的可管理风险）、黄色（需要加强缓解措施和受控部署的风险）以及红色（需要暂停开发和/或部署的风险）。实验结果显示，所有最近的前沿人工智能模型均处于绿色和黄色区域，未跨越红线。具体而言，没有评估的模型跨越网络攻击或不受控制的人工智能研发风险的黄线。对于自我复制和战略欺骗与策划，大多数模型仍处于绿色区域，但某些推理模型则处于黄色区域。在说服与操纵方面，由于这些模型对人类的有效影响，大多数模型处于黄色区域。对于生物和化学风险，虽然我们无法排除大多数模型可能处于黄色区域的可能性，但仍需进行详细的威胁建模和深入评估才能做出进一步的结论。本工作反映了我们当前对人工智能前沿风险的理解，并呼吁采取集体行动以应对这些挑战。