2달 전

o3-mini vs DeepSeek-R1: 어느 것이 더 안전한가?

Aitor Arrieta, Miriam Ugarte, Pablo Valle, José Antonio Parejo, Sergio Segura

초록

DeepSeek-R1의 등장은 AI 산업 전반과 특히 대형 언어 모델(LLM)에 있어 중요한 전환점이 되었습니다. 이 모델의 능력은 창의적 사고, 코드 생성, 수학 및 자동 프로그램 수정 등의 여러 작업에서 뛰어난 성능을 보여주었으며, 실행 비용도 상대적으로 낮은 것으로 나타났습니다. 그러나 LLM들은 안전성과 인간 가치와의 일치성을 유지하는 중요한 질적 특성을 지녀야 합니다. DeepSeek-R1의 명백한 경쟁자는 미국의 OpenAI가 개발한 o3-mini 모델로, 성능, 안전성 및 비용 측면에서 높은 기준을 설정할 것으로 예상됩니다. 본 논문에서는 DeepSeek-R1(70B 버전)과 OpenAI의 o3-mini(베타 버전)의 안전성을 체계적으로 평가하였습니다. 이를 위해 최근 출시된 자동 안전 테스트 도구인 ASTRAL을 활용하여 두 모델에 대해 총 1260개의 위험한 테스트 입력을 자동으로 생성하고 실행하였습니다. 두 LLM이 제공한 결과를 반자동으로 평가한 후, 결과는 DeepSeek-R1이 OpenAI의 o3-mini보다 훨씬 더 위험하다는 것을 시사합니다. 우리의 평가에 따르면, DeepSeek-R1은 실행된 프롬프트 중 11.98%에 대해 위험하게 응답하였으나, o3-mini는 단지 1.19%만 위험하게 응답하였습니다.