초록

인공지능(AI) 모델의 급속한 발전으로 인해 발생하는 전례 없는 위험을 이해하고 식별하기 위해 본 보고서는 이러한 최전선 AI의 위험에 대한 종합적인 평가를 제시한다. 최전선 AI 위험 관리 프레임워크(SafeWork-F1-Framework, v1.0)에서 제시한 E-T-C 분석(배포 환경, 위협 원천, 가능성을 제공하는 능력)을 기반으로, 우리는 7개 영역에서 중요한 위험을 식별하였다: 사이버 공격, 생물학적 및 화학적 위험, 설득과 조작, 통제되지 않은 자율 AI 연구 및 개발, 전략적 속임수와 계략, 자기 복제, 그리고 협력. "AI-법"에 따라, 우리는 "적색선"(불가능한 기준)과 "노랑선"(초기 경고 지표)을 사용하여 이러한 위험을 평가하여 위험 구역을 정의하였다. 즉, 녹색(일상적인 배포와 지속적인 모니터링을 위한 관리 가능한 위험), 노랑(강화된 완화 조치와 통제된 배포가 필요한 위험), 적색(개발 및/또는 배포 중단이 필요한 위험)이다. 실험 결과는 최근 개발된 모든 최전선 AI 모델이 적색선을 넘지 않고 녹색 및 노랑 구역에 위치해 있음을 보여준다. 구체적으로, 사이버 공격이나 통제되지 않은 AI 연구 및 개발 위험에 대해 평가된 모든 모델이 노랑선을 넘지 않았다. 자기 복제 및 전략적 속임수와 계략에 대해서는 대부분의 모델이 녹색 구역에 위치해 있으며, 일부 추론 모델만이 노랑 구역에 포함되어 있다. 설득과 조작에 대해서는 대부분의 모델이 노랑 구역에 위치해 있으며, 이는 인간에게 효과적인 영향을 미치기 때문이다. 생물학적 및 화학적 위험에 대해서는, 상세한 위협 모델링과 심층적인 평가가 필요하므로 대부분의 모델이 노랑 구역에 위치할 가능성은 배제할 수 없다. 본 연구는 현재 AI 최전선 위험에 대한 우리의 이해를 반영하며, 이러한 위험을 완화하기 위한 공동 행동을 촉구한다.

소스 PDF