Command Palette

Search for a command to run...

2달 전

A.S.E: 인공지능 생성 코드의 보안 평가를 위한 레포지터리 수준 벤치마크

A.S.E: 인공지능 생성 코드의 보안 평가를 위한 레포지터리 수준 벤치마크

초록

소프트웨어 공학 분야에서 대규모 언어 모델(LLM)의 채택이 증가함에 따라, 생성된 코드의 보안성에 대한 철저한 평가가 필수적으로 요구된다. 그러나 기존의 평가 기준은 제한된 코드 조각에만 초점을 맞추고 있으며, 재현 불가능한 불안정한 평가 방법을 사용함으로써, 입력 컨텍스트의 품질과 출력의 보안성 간의 관계를 제대로 반영하지 못하고 있다. 이러한 한계를 보완하기 위해 우리는 A.S.E(AI Code Generation Security Evaluation)를 제안한다. A.S.E는 실제 세계의 레포지토리에서 발생한 문서화된 CVE(CVE-2023-XXXX 등)를 기반으로 하며, 빌드 시스템과 파일 간 종속성과 같은 전체 레포지토리 컨텍스트를 유지하는 레포지토리 수준의 보안 코드 생성 평가 기준이다. 재현 가능한 컨테이너 기반 평가 프레임워크를 통해 전문가가 정의한 규칙을 활용하여, 보안성, 빌드 품질, 생성 안정성에 대한 안정적이고 감사 가능한 평가를 수행한다. A.S.E를 활용한 주요 LLM들의 평가 결과는 세 가지 핵심 발견을 도출한다. (1) Claude-3.7-Sonnet이 전반적인 성능에서 최고의 성과를 기록했다. (2) 사내 개발 모델과 오픈소스 모델 간의 보안성 격차는 좁으며, Qwen3-235B-A22B-Instruct가 최고의 보안 점수를 기록했다. (3) 보안 패치 생성 과정에서 간결하고 빠른 사고 방식(‘fast-thinking’)의 디코딩 전략이 복잡하고 느린 사고 방식(‘slow-thinking’)의 추론 전략보다 일관되게 우수한 성능을 보였다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
A.S.E: 인공지능 생성 코드의 보안 평가를 위한 레포지터리 수준 벤치마크 | 연구 논문 | HyperAI초신경