17일 전

대규모 언어 모델의 취약점 탐지에 대한 피니어튜닝

Alexey Shestov, Rodion Levichev, Ravil Mussabayev, Evgeny Maslov, Anton Cheshkov, Pavel Zadorozhny
대규모 언어 모델의 취약점 탐지에 대한 피니어튜닝
초록

이 논문은 소스 코드 내의 취약점을 탐지하는 작업을 위해 대규모 언어 모델(Large Language Models, LLMs)의 파인튜닝(finetuning) 결과를 제시한다. 우리는 최신의 상태 기술(SOTA) 언어 모델인 StarCoder의 개선 버전인 WizardCoder를 활용하여, 추가적인 파인튜닝을 통해 취약점 탐지에 적합하도록 조정하였다. 학습 속도를 가속화하기 위해 WizardCoder의 학습 절차를 수정하였으며, 최적의 학습 전략(훈련 제도, training regimes)을 탐색하였다. 긍정 예시보다 부정 예시가 훨씬 많은 불균형 데이터셋의 경우, 분류 성능 향상을 위한 다양한 기법을 탐구하였다. 파인튜닝된 WizardCoder 모델은 CodeBERT 유사 모델 대비 균형 및 비균형 취약점 데이터셋에서 ROC AUC 및 F1 측정치에서 개선된 성능을 보였으며, 사전 훈련된 대규모 언어 모델을 소스 코드 취약점 탐지에 적응시키는 효과를 입증하였다. 본 연구의 주요 기여점은 다음과 같다: 최신 코드 전용 언어 모델인 WizardCoder의 파인튜닝, 성능 저하 없이 학습 속도 향상, 학습 절차 및 전략의 최적화, 클래스 불균형 문제의 처리, 어려운 취약점 탐지 데이터셋에서의 성능 향상. 이러한 결과는 대규모 사전 훈련된 언어 모델을 전이 학습(finetuning)을 통해 전문화된 소스 코드 분석 작업에 활용할 수 있는 잠재력을 보여준다.

대규모 언어 모델의 취약점 탐지에 대한 피니어튜닝 | 최신 연구 논문 | HyperAI초신경