11일 전

저자원 환경에서의 전통적 및 맥락 기반 스팸 탐지

{Lisa Singh, Kornraphop Kawintiranon}
초록

소셜미디어 데이터는 고품질과 저품질 콘텐츠가 혼합되어 있다. 일반적으로 연구되는 저품질 콘텐츠의 한 형태로 스팸이 있다. 대부분의 기존 연구는 스팸이 맥락에 무관하다고 가정한다. 본 연구에서는 다양한 트위터 데이터셋을 대상으로 맥락에 따라 달라지는 스팸이 존재하며, 이를 식별할 수 있음을 보여준다. 이후, 콘텐츠 기반 특징만을 사용하여 전통적인 기계학습 모델 여러 종류와 사전 훈련된 BERT 언어 모델을 활용해 맥락적 특징을 추출하는 신경망 모델을 비교하였다. 그 결과, 신경망 모델이 전통적 모델보다 우수한 성능을 보였으며, F1 스코어는 0.91을 기록했다. 스팸 학습 데이터셋은 전통적으로 불균형한 특성을 지니고 있으므로, 본 연구는 이러한 불균형이 모델 성능에 미치는 영향을 조사하였고, 극심한 불균형 상황에서는 단순한 Bag-of-Words 모델이 가장 우수함을 확인하였다. 그러나 다른 도메인의 언어 모델을 활용해 미세조정(fine-tuning)하는 신경망 모델은 F1 스코어를 크게 향상시키지만, 도메인 특화된 신경망 모델 수준까지는 도달하지 못함을 보였다. 이는 데이터셋의 불균형 정도, 저자원 환경에서의 데이터 양, 그리고 맥락 기반 스팸과 전통적 스팸의 발생 빈도에 따라 최적의 전략이 달라질 수 있음을 시사한다. 마지막으로, 본 연구에서 사용한 데이터셋을 연구 공동체의 활용을 위해 공개한다.

저자원 환경에서의 전통적 및 맥락 기반 스팸 탐지 | 최신 연구 논문 | HyperAI초신경