17일 전

러시아어 감성 분석을 위한 딥 트랜스퍼 학습 베이스라인

{Mikhail Komarov, Sergey Smetanin}
초록

최근에 사전 훈련된 언어 모델을 활용한 전이 학습이 감성 분석을 포함한 다양한 자연어 처리 작업에서 효과적임이 입증되었다. 본 연구는 러시아어 감성 분석 분야에서의 심층 전이 학습 기준 모델을 식별하는 것을 목표로 한다. 먼저, 러시아어 감성 분석에 가장 널리 사용되는 공개 데이터셋과 공식적으로 러시아어를 지원하는 최신 언어 모델들을 식별하였다. 이후 다국어 양방향 트랜스포머 인코더 표현(Multilingual Bidirectional Encoder Representations from Transformers, BERT), RuBERT, 그리고 다국어 유니버설 문장 인코더(Multilingual Universal Sentence Encoder)의 두 가지 버전을 미세 조정(fine-tuning)하여, 러시아어 감성 분석 데이터셋 7개—SentRuEval-2016, SentiRuEval-2015, RuTweetCorp, RuSentiment, LINIS Crowd, Kaggle 러시아 뉴스 데이터셋, RuReviews—에서 강력한 성능을 달성하였으며, 일부 작업에서는 기존 최고 성능(SOTA)을 초월하는 결과를 얻었다. 마지막으로, 미세 조정된 모델들을 연구 공동체에 공개하여 후속 연구의 기반을 마련하였다.