18일 전
HYDRA: 악성코드 분류를 위한 다중모달 딥러닝 프레임워크
{Jordi Planes, Carles Mateu, Daniel Gibert}
초록
전통적인 악성코드 탐지용 기계학습 방법은 도메인 전문가의 지식에 기반한 수작업으로 설계된 특징에 크게 의존하지만, 엔드투엔드 학습 접근법은 원시 실행 파일을 입력으로 받아 이를 바탕으로 설명적인 특징을 자동으로 학습하려는 시도를 한다. 그러나 후자의 방법은 데이터가 부족하거나 데이터셋의 불균형이 심한 문제에서는 성능이 저하될 수 있다. 본 논문에서는 다양한 유형의 특징을 결합하여 서로 다른 모달리티 간의 관계를 탐색함으로써 악성코드 탐지 및 분류 과제를 해결하기 위한 새로운 프레임워크인 HYDRA를 제안한다. 제안하는 방법은 다양한 소스로부터 학습함으로써 다수의 특징 유형의 장점을 극대화하여 악성코드 실행 파일의 특성을 효과적으로 반영한다. 또한 특징 공학과 딥러닝의 장점을 결합하기 위해 수작업 특징과 엔드투엔드 구성 요소를 모두 포함하는 기준 시스템을 제안하여 악성코드의 특성을 보다 효과적으로 표현할 수 있도록 한다. Microsoft Malware Classification Challenge 벤치마크에서 최신 기술들을 대상으로 한 광범위한 분석 결과, 제안된 솔루션이 기존 문헌에 보고된 그래디언트 부스팅 기법과 비슷한 성능을 달성함과 동시에 딥러닝 접근법보다 더 높은 성과를 보였다.