12일 전
콘텐츠 정보를 기반으로 한 페르시아어 루머 검증을 위한 반감독 모델
{Arash Sharifi, Mohammad-Reza Feizi-Derakhshi, Zoleikha Jahanbakhsh-Nagadeh}
초록
소문은 언어의 힘을 활용하여 모호하지만 매력적인 상황을 공동으로 해석하려는 시도이다. 사회적 네트워크에서는 진위 여부에 관계없이 소문이 어휘적, 문법적, 의미적 차원에서 상이한 맥락적 특성을 가질 수 있다. 따라서 본 연구는 세 가지 관점—맥락적 단어 임베딩(CWE), 언어행위(speech act), 글쓰기 스타일(WS)—에서 콘텐츠 기반 및 맥락 기반 특징을 탐색함으로써 페르시아어 소문의 조기 검증을 위한 BERT-SAWS 반감독 학습 모델을 제안한다. 이 모델은 사전 훈련된 양방향 인코더 표현(BERT)을 비감독 언어 표현으로 로드한 후, 소규모 페르시아어 소문 데이터셋을 이용해 미세 조정(fine-tuning)하고, 감독 학습 모델과 결합함으로써 소문 콘텐츠에 대한 � richer한 텍스트 표현을 제공한다. 이러한 텍스트 표현은 두 가지 이유로 기존 기준 모델보다 소문 검증 성능을 향상시킨다: (i) 소문의 원본 콘텐츠와 맥락 기반 특징에 집중함으로써 소문을 조기에 검증할 수 있다. (ii) 심층 신경망에서 데이터셋의 부족 문제를 해결하기 위해 사전 훈련된 BERT를 로드하고, 페르시아어 소문 데이터셋으로 미세 조정하며, 언어행위 및 글쓰기 스타일 기반 특징과 결합한다. 트위터 및 텔레그램 데이터셋에 모델을 적용한 실증 결과에 따르면, BERT-SAWS는 분류기 성능을 2%에서 18%까지 향상시켰다. 이는 언어행위와 글쓰기 스타일뿐만 아니라 의미적 맥락 벡터가 소문 검증 과제에서 유용한 특징임을 시사한다.