vor 18 Tagen
RuSentiment: Ein erweitertes Sentiment-Analyse-Dataset für soziale Medien auf Russisch
{Mikhail Gronas, Anna Rumshisky, Anna Rogers, Alex Gribov, Alexey Romanov, Svitlana Volkova}

Abstract
Diese Arbeit stellt RuSentiment vor, einen neuen Datensatz für die Sentimentanalyse von Social-Media-Beiträgen auf Russisch, sowie eine neue Reihe umfassender Anmerkungsleitlinien, die sich auf andere Sprachen erweitern lassen. RuSentiment ist derzeit der größte Datensatz seiner Art für Russisch und umfasst 31.185 Beiträge, die mit einem Fleiss’schen Kappa von 0,58 annotiert wurden (3 Anmerkungen pro Beitrag). Um die Diversität des Datensatzes zu erhöhen, wurden 6.950 Beiträge mittels einer aktiven Lern-ähnlichen Strategie vorab ausgewählt. Wir präsentieren Baseline-Klassifizierungsergebnisse und veröffentlichen zudem die besten leistenden Embeddings, die auf 3,2 Milliarden Tokens aus russischen VKontakte-Beiträgen trainiert wurden.