17일 전
임베딩 기반 클러스터링을 통한 타깃 특정 입장 분석: 분열된 터키의 사례
Ammar Rashed, Mucahid Kutlu, Kareem Darwish, Tamer Elsayed, Cansın Bayrak

초록
2018년 6월 24일, 터키는 새로운 대통령제 하에서 치러진 첫 번째 선거를 실시하여 국민들이 대통령과 의회를 동시에 선출하였다. 이 선거 기간 동안 터키 국민들은 트위터를 통해 정치적 견해를 광범위하게 공유했다. 유권자 간의 분열 현상 중 하나는 레이프 타이이프 에르도안 대통령의 재선에 대한 지지 또는 반대였다. 본 논문에서는 정치적 분열이 심한 환경인 터키 정치를 대상으로, 특정 대상에 대한 태도를 비지도 방식으로 탐지하는 방법을 제안한다. 이 방법은 사용자 태도를 식별하는 데 있어 90%의 정밀도를 달성하면서도 80% 이상의 재현율을 유지한다. 제안된 방법은 구글의 복합 신경망(CNN) 기반 다국어 통용 문장 인코더(MLUSE)를 사용하여 사용자를 임베딩 공간에 표현하고, 유사도를 반영하는 방식으로 낮은 차원 공간으로 투영한 후 군집화를 수행한다. 우리는 다양한 대상—정치 인물, 다양한 집단, 정당 등—에 대해 서로 다른 그룹의 사용자를 효과적으로 군집화할 수 있음을 입증한다. 분석은 1억 800만 건의 터키 선거 관련 트윗과 16만 8,000명의 터키 사용자(총 2억 1,300만 건의 트윗)의 타임라인 트윗으로 구성된 대규모 데이터셋을 기반으로 수행되었다. 얻어진 사용자 태도 정보를 바탕으로 주제 간 상관관계를 관찰하고, 주제별 분열 정도를 정량적으로 계산할 수 있다.