17일 전

XLM-T: 트위터를 위한 다국어 언어 모델 sentiment 분석 및 그 이상

Francesco Barbieri, Luis Espinosa Anke, Jose Camacho-Collados
XLM-T: 트위터를 위한 다국어 언어 모델 sentiment 분석 및 그 이상
초록

현재 자연어 처리(NLP) 분야에서 언어 모델은 보편적으로 사용되고 있으며, 다국어 처리 능력에 대한 관심이 최근 급격히 증가하고 있다. 그러나 기존의 분석은 거의 전적으로 표준 벤치마크(다국어 변형 포함)에 집중되어 왔으며, 다국어 신호로는 깨끗한 사전 훈련 데이터와 작업 특화 코퍼스를 주로 활용해왔다. 본 논문에서는 트위터 환경에서 다국어 언어 모델을 훈련하고 평가하기 위한 XLM-T 모델을 제안한다. 본 논문에서는 다음 두 가지를 제공한다: (1) 30개 이상의 언어로 작성된 수백만 건의 트윗 데이터를 기반으로 사전 훈련된 XLM-R(Conneau 등, 2020) 모델을 기반으로 한 새로운 강력한 다국어 기준 모델과, 목표 작업에 대해 후속 미세조정(fine-tuning)을 수행할 수 있도록 제공하는 시작 코드; (2) 여덟 가지 다른 언어로 구성된 통합된 감성 분석 트위터 데이터셋과, 해당 데이터셋에 미세조정된 XLM-T 모델.