HyperAIHyperAI
il y a 18 jours

RuSentiment : Un ensemble de données enrichi pour l'analyse d'opinion sur les médias sociaux en russe

{Mikhail Gronas, Anna Rumshisky, Anna Rogers, Alex Gribov, Alexey Romanov, Svitlana Volkova}
RuSentiment : Un ensemble de données enrichi pour l'analyse d'opinion sur les médias sociaux en russe
Résumé

Cet article présente RuSentiment, un nouveau jeu de données dédié à l'analyse d'opinion sur les publications des réseaux sociaux en russe, ainsi qu'un ensemble de nouvelles directives d'annotation complètes et extensibles à d'autres langues. RuSentiment est actuellement le plus grand de sa catégorie pour le russe, comprenant 31 185 publications annotées avec un kappa de Fleiss de 0,58 (3 annotations par publication). Afin de diversifier le jeu de données, 6 950 publications ont été pré-sélectionnées selon une stratégie inspirée de l'apprentissage actif. Nous présentons des résultats de classification de référence, et nous mettons également à disposition les meilleurs embeddings entraînés sur 3,2 milliards de tokens provenant de publications russes de VKontakte.