3일 전
CryptoScope: 대규모 언어 모델을 활용한 암호 논리 취약점 자동 탐지
Zhihao Li, Zimo Ji, Tao Zheng, Hao Ren, Xiao Lan

초록
암호 알고리즘은 현대 보안의 핵심 요소이지만, 그 구현 과정에서 감지하기 어려운 미묘한 논리적 결함이 자주 존재한다. 본 연구에서는 대규모 언어 모델(Large Language Models, LLM)을 기반으로 한 자동 암호 취약점 탐지 프레임워크인 CryptoScope을 제안한다. CryptoScope는 12,000건 이상의 항목을 포함하는 정제된 암호학 지식 기반을 바탕으로, 사고 과정 체계(Chain-of-Thought, CoT) 프롬프팅과 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 결합하여 작동한다. 우리는 LLM-CLVA라는 기준을 활용하여 CryptoScope의 성능을 평가하였으며, 이 기준은 실제 세계의 CVE 취약점에서 주로 유도된 92개의 사례를 포함하고, 주요 캡처 더 플래그(Capture The Flag, CTF) 대회에서 출제된 암호 문제 및 11개 프로그래밍 언어에 걸쳐 생성된 합성 예제를 보완적으로 수용한다. 평가 결과, CryptoScope는 강력한 LLM 기반 기준 모델들보다 일관되게 성능을 향상시켰으며, DeepSeek-V3의 경우 11.62%, GPT-4o-mini는 20.28%, GLM-4-Flash는 28.69%의 성능 향상을 기록하였다. 또한, 널리 사용되는 오픈소스 암호 프로젝트에서 기존에 알려지지 않은 9건의 결함을 발견하였다.