منذ 18 أيام
تصنيف المشاعر باستخدام تمثيلات المستندات التي تم تدريبها باستخدام التشابه الجيبي
{Tan Thongtan, Tanasanee Phienthrakul}

الملخص
في تصنيف مشاعر المستندات، يجب تعيين كل مستند إلى متجه بطول ثابت. تقوم نماذج تمثيل المستندات (document embedding models) بتحويل كل مستند إلى متجه كثيف ثنائي الأبعاد منخفض الأبعاد في فضاء المتجهات المستمر. تُقترح في هذه الورقة تدريب تمثيلات المستندات باستخدام التشابه الزاوي (cosine similarity) بدلًا من الضرب القياسي (dot product). أظهرت التجارب على مجموعة بيانات IMDB تحسن الدقة عند استخدام التشابه الزاوي مقارنةً باستخدام الضرب القياسي، في حين أن استخدام الجمع بين الميزات مع نموذج "الحقيبة البسيطة الموزونة من النغمات (Naive Bayes weighted bag of n-grams)" حقق دقة جديدة تمثل أفضل أداء مسجّل حتى الآن بـ 97.42%. يمكن إعادة إنتاج جميع التجارب من خلال الكود المتاح على الرابط: https://github.com/tanthongtan/dv-cosine