Command Palette
Search for a command to run...

초록
소프트웨어 공학 분야에서 대규모 언어 모델(LLM)의 채택이 증가함에 따라, 생성된 코드의 보안성에 대한 철저한 평가가 필수적으로 요구된다. 그러나 기존의 평가 기준은 제한된 코드 조각에만 초점을 맞추고 있으며, 재현 불가능한 불안정한 평가 방법을 사용함으로써, 입력 컨텍스트의 품질과 출력의 보안성 간의 관계를 제대로 반영하지 못하고 있다. 이러한 한계를 보완하기 위해 우리는 A.S.E(AI Code Generation Security Evaluation)를 제안한다. A.S.E는 실제 세계의 레포지토리에서 발생한 문서화된 CVE(CVE-2023-XXXX 등)를 기반으로 하며, 빌드 시스템과 파일 간 종속성과 같은 전체 레포지토리 컨텍스트를 유지하는 레포지토리 수준의 보안 코드 생성 평가 기준이다. 재현 가능한 컨테이너 기반 평가 프레임워크를 통해 전문가가 정의한 규칙을 활용하여, 보안성, 빌드 품질, 생성 안정성에 대한 안정적이고 감사 가능한 평가를 수행한다. A.S.E를 활용한 주요 LLM들의 평가 결과는 세 가지 핵심 발견을 도출한다. (1) Claude-3.7-Sonnet이 전반적인 성능에서 최고의 성과를 기록했다. (2) 사내 개발 모델과 오픈소스 모델 간의 보안성 격차는 좁으며, Qwen3-235B-A22B-Instruct가 최고의 보안 점수를 기록했다. (3) 보안 패치 생성 과정에서 간결하고 빠른 사고 방식(‘fast-thinking’)의 디코딩 전략이 복잡하고 느린 사고 방식(‘slow-thinking’)의 추론 전략보다 일관되게 우수한 성능을 보였다.