RuSentiment : Un ensemble de données enrichi pour l'analyse d'opinion sur les médias sociaux en russe

Cet article présente RuSentiment, un nouveau jeu de données dédié à l'analyse d'opinion sur les publications des réseaux sociaux en russe, ainsi qu'un ensemble de nouvelles directives d'annotation complètes et extensibles à d'autres langues. RuSentiment est actuellement le plus grand de sa catégorie pour le russe, comprenant 31 185 publications annotées avec un kappa de Fleiss de 0,58 (3 annotations par publication). Afin de diversifier le jeu de données, 6 950 publications ont été pré-sélectionnées selon une stratégie inspirée de l'apprentissage actif. Nous présentons des résultats de classification de référence, et nous mettons également à disposition les meilleurs embeddings entraînés sur 3,2 milliards de tokens provenant de publications russes de VKontakte.