15일 전
소셜 미디어에 사용자 제출한 텍스트의 이념적 성향 분류
{Rickard Ewetz, Adan Ernesto Vela, Kamalakkannan Ravi}
초록
온라인 커뮤니티 내에서 언어가 어떻게 사용되고 진화하는지를 장기적으로 이해하는 것을 목표로 하여, 본 연구는 자연어 처리 기법을 활용하여 텍스트 기사의 이념적 성향(즉, 보수 또는 진보)에 따라 분류하는 방법을 탐구한다. 먼저, 소셜 미디어 웹사이트 Reddit의 온라인 커뮤니티인 r/Liberal과 r/Conservative에 게시된 텍스트 기사들로부터 균형 잡힌 코퍼스를 수집한다. 이 코퍼스를 바탕으로 세 가지 분류 모델을 개발하고 적용한다. 기준 모델로는 각 텍스트 기사의 웹 도메인 정보를 고려하는 베이즈 모델을 사용하며, 이 경우 분류는 콘텐츠와 무관하게 이루어진다. 다음으로, 용어 빈도-역문서 빈도 가중치(TF-IDF) 특징을 사용한 서포트 벡터 머신(SVM) 모델을 개발한다. 이 접근법은 카운트 기반의 특징 공간을 활용하여 언어 사용의 차이를 강조함으로써 텍스트 기사 간의 구분을 가능하게 한다. 마지막으로, 맥락 기반의 트랜스포머 모델인 RoBERTa 모델을 평가하고, 기준 모델 및 SVM 모델에 비해 성능이 저조한 이유를 논의한다.