要約
最近、事前学習された言語モデルからの転移学習は、センチメント分析を含む多様な自然言語処理タスクにおいて有効であることが示されている。本論文では、ロシア語におけるセンチメント分析に対する深層転移学習のベースラインを同定することを目的としている。まず、ロシア語で利用されている代表的な公開センチメント分析データセットおよび公式にロシア語をサポートする最新の言語モデルを特定した。次に、マルチリンガルなバイディレクショナルエンコーダ表現(BERT)であるMultilingual BERT、RuBERT、および2種類のマルチリンガルユニバーサルセンテンスエンコーダー(Universal Sentence Encoder)を微調整し、7つのロシア語センチメントデータセット(SentRuEval-2016、SentiRuEval-2015、RuTweetCorp、RuSentiment、LINIS Crowd、Kaggleロシア語ニュースデータセット、RuReviews)において、強力な、あるいは新たな最先端(SOTA)の結果を得た。最後に、微調整済みモデルを研究コミュニティに公開した。