V2W-BERT: 소프트웨어 취약점의 효과적인 계층적 다중 클래스 분류를 위한 프레임워크

소프트웨어의 아키텍처, 설계 또는 구현 단계에서 발생하는 결함, 버그, 오류 등의 컴퓨터 시스템 내 약점은 공격자가 시스템의 보안을 침해하는 데 악용될 수 있는 취약점을 제공한다. 일반적인 약점 목록(Common Weakness Enumerations, CWE)은 소프트웨어의 결함을 이해하고, 그 결함이 악용되었을 때 발생할 수 있는 잠재적 영향을 분석하며, 이를 완화하기 위한 방법을 제공하는 계층적 구조를 가진 사전이다. 일반적인 취약점 및 노출(Common Vulnerabilities and Exposures, CVE)은 특정 제품이나 프로토콜의 취약점을 고유하게 식별하는 간략한 저수준 설명이다. CVE를 CWE에 분류하거나 매핑하는 것은 취약점의 영향을 이해하고 이를 완화하는 데 유용한 수단을 제공한다. 그러나 수동적인 CVE-CWE 매핑은 실현 가능성이 낮으며, 자동화된 접근법이 바람직하지만 도전적인 과제이다.본 논문에서는 새로운 Transformer 기반의 학습 프레임워크(V2W-BERT)를 제안한다. 자연어 처리, 링크 예측, 전이 학습의 아이디어를 활용함으로써, 풍부한 학습 데이터가 있는 CWE 인스턴스뿐 아니라, 학습 데이터가 부족하거나 없는 희귀한 CWE 클래스에 대해서도 기존 방법들을 뛰어넘는 성능을 달성한다. 또한, 과거 데이터를 활용하여 향후 CVE 인스턴스에 대한 링크를 예측하는 데 있어 뚜렷한 성능 향상을 보이며, 실용적 응용에 있어 타당한 접근법을 제시한다. MITRE 및 국립 취약점 데이터베이스(National Vulnerability Database)의 데이터를 활용한 실험 결과, 무작위 분할 데이터에서는 최대 97%의 예측 정확도, 시간적 분할 데이터에서는 최대 94%의 정확도를 달성하였다. 본 연구가 보다 우수한 방법론과 학습 모델의 설계에 영향을 미치고, 사이버보안 분야에서 점점 더 복잡해지는 문제들을 해결하는 데 기여할 것이라 믿는다.