
초록
트위터에서 입장을 탐지하는 것은 각 트윗의 짧은 길이, 지속적인 새로운 용어와 해시태그의 창출, 그리고 표준 문체와는 다른 문장 구조로 인해 특히 도전적이다. 대규모 도메인 내 데이터를 활용한 미세조정 언어 모델은 여러 자연어 처리(NLP) 과제, 특히 입장 탐지 분야에서 새로운 최고 성능 기준으로 입증되었다. 본 논문에서는 입장 탐지에 적합한 마스킹 언어 모델을 향상시키기 위해 새로운 BERT 기반 미세조정 방법을 제안한다. 무작위 토큰 마스킹 대신, 입장 구분 능력이 높은 단어를 가중치가 부여된 로그 오즈 비율(Weighted Log-Odds-Ratio)을 활용해 식별하고, 이러한 단어에 주목하는 주의 메커니즘을 모델링한다. 제안하는 방법이 2020년 미국 대통령 선거 관련 트위터 데이터에 대한 입장 탐지에서 기존 최고 성능 기준을 능가함을 입증하였다.