18일 전

RuSentiment: 러시아어 소셜미디어를 위한 풍부한 감성 분석 데이터셋

{Mikhail Gronas, Anna Rumshisky, Anna Rogers, Alex Gribov, Alexey Romanov, Svitlana Volkova}
RuSentiment: 러시아어 소셜미디어를 위한 풍부한 감성 분석 데이터셋
초록

이 논문은 러시아어 소셜미디어 게시물에 대한 감성 분석을 위한 새로운 데이터셋인 RuSentiment과, 다른 언어로도 확장 가능한 포괄적인 주석 지침을 제시한다. RuSentiment은 현재 러시아어 분야에서 가장 큰 데이터셋으로, 각 게시물당 3명의 평가자가 참여하여 Fleiss의 카파 값이 0.58로 평가된 총 31,185개의 게시물로 구성되어 있다. 데이터셋의 다양성을 높이기 위해, 6,950개의 게시물은 활성 학습 방식의 전처리 전략을 통해 사전에 선정되었다. 본 연구에서는 기준 분류 성능 결과를 보고하며, 32억 토큰 규모의 러시아어 VKontakte 게시물에서 학습된 최고 성능을 기록한 임베딩도 함께 공개한다.