منذ 18 أيام
RuSentiment: مجموعة بيانات مُحسَّنة لتحليل المشاعر في وسائط التواصل الاجتماعي باللغة الروسية
{Mikhail Gronas, Anna Rumshisky, Anna Rogers, Alex Gribov, Alexey Romanov, Svitlana Volkova}

الملخص
تقدم هذه الورقة البحثية مجموعة البيانات RuSentiment، وهي مجموعة بيانات جديدة لتحليل مشاعر المنشورات على وسائل التواصل الاجتماعي باللغة الروسية، بالإضافة إلى مجموعة جديدة من إرشادات الترميز الشاملة التي يمكن توسيعها لتشمل لغات أخرى. حاليًا، تعد RuSentiment الأكبر في فئتها بالنسبة للغة الروسية، حيث تحتوي على 31,185 منشورًا تم ترميزها بمعامل كابا لفيليس البالغ 0.58 (ثلاثة ترميزات لكل منشور). ولتعزيز تنوع البيانات، تم اختيار 6,950 منشورًا مسبقًا باستخدام استراتيجية تشبه التعلم النشط. ونُشرت نتائج التصنيف الأساسية، كما تم الإفصاح عن أفضل تضمينات (embeddings) أُدرّبت على 3.2 مليار من الرموز النصية من منشورات منصة VKontakte باللغة الروسية.