17일 전

TweetEval: 트윗 분류를 위한 통합 벤치마크 및 비교 평가

Francesco Barbieri, Jose Camacho-Collados, Leonardo Neves, Luis Espinosa-Anke
TweetEval: 트윗 분류를 위한 통합 벤치마크 및 비교 평가
초록

소셜 미디어 분야의 자연어 처리 실험 환경은 너무나 분산되어 있다. 매년 감정 분석과 같은 고전적인 과제부터 아이러니 탐지, 이모지 예측에 이르기까지 다양한 공유 과제와 데이터셋이 제안되고 있다. 이로 인해 표준화된 평가 프로토콜이 없으며, 해당 도메인 특화 데이터에 기반한 강력한 베이스라인 모델도 부족하기 때문에 현재의 최고 성능 기준이 명확하지 않다. 본 논문에서는 일곱 가지 다양한 트위터 전용 분류 과제로 구성된 새로운 평가 프레임워크(TweetEval)를 제안한다. 또한, 시작점으로 사용할 수 있는 강력한 베이스라인 세트를 제공하고, 다양한 언어 모델링 사전 훈련 전략을 비교 분석한다. 초기 실험 결과는 기존의 사전 훈련된 일반 목적 언어 모델을 활용하여 트위터 코퍼스에서 추가로 훈련하는 것이 효과적임을 보여준다.