11일 전
딥 컨볼루셔널 포레스트: 텍스트 내 스팸 탐지 위한 동적 딥 앙상블 방법
Mai A. Shaaban, Yasser F. Hassan, Shawkat K. Guirguis

초록
모바일 메시징 서비스의 이용 증가로 인해 피싱과 같은 사회공학적 공격이 확산되고 있으며, 스팸 문자는 신용카드 번호나 비밀번호와 같은 민감한 데이터를 탈취하기 위한 피싱 공격의 주요 전파 수단 중 하나로 작용하고 있다. 또한 코로나19 팬데믹과 관련된 소문 및 오해를 불러일으키는 잘못된 의학 정보가 소셜미디어를 통해 널리 확산되며, 사용자들의 불안과 혼란을 초래하고 있다. 이러한 상황에서 스팸 콘텐츠의 필터링은 위험과 위협을 줄이기 위해 매우 중요하다. 기존의 연구들은 스팸 분류를 위해 머신러닝 및 딥러닝 기법에 의존해 왔지만, 이러한 접근법에는 두 가지 한계가 있다. 머신러닝 모델은 수작업 기반의 특징 엔지니어링을 필요로 하며, 딥 신경망은 높은 계산 비용을 수반한다. 본 논문은 모델의 복잡도를 동적으로 조절하고 특징을 자동으로 추출할 수 있는 동적 딥 앙상블 모델을 제안한다. 제안된 모델은 텍스트의 특징 추출을 위해 컨볼루션 및 풀링 레이어를 활용하며, 랜덤 포레스트와 극도로 무작위화된 트리(Extremely Randomized Trees)와 같은 기본 분류기들을 사용하여 텍스트를 스팸 또는 정상 메시지로 분류한다. 또한 부스팅과 배깅(Bagging)과 같은 앙상블 학습 기법을 적용하여 성능을 향상시켰다. 그 결과, 제안된 모델은 정밀도(Precision), 재현율(Recall), F1 스코어, 정확도(Accuracy) 모두 98.38%의 높은 성능을 달성하였다.