متجهات المستند باستخدام التشابه الزاوي: إعادة النظر

تم الإبلاغ عن الدقة الحالية في الاختبار (97.42٪) على مجموعة بيانات مراجعات الأفلام IMDB من قبل \citet{thongtan-phienthrakul-2019-sentiment}، والتي تم تحقيقها باستخدام فاصل تنبؤي انحدار لوجستي تم تدريبه على متجهات الوثائق (Document Vectors) المستخدمة بأسلوب التشابه الزاوي (Cosine Similarity) (DV-ngrams-cosine) المُقترح في أوراقهم، بالإضافة إلى متجهات Bag-of-N-grams (BON) التي تم تكبيرها باستخدام أوزان بايزية بسيطة. وعلى الرغم من أن النماذج الكبيرة المُدرّبة مسبقًا المستندة إلى معمارية Transformer قد أظهرت نتائج متفوقة على العديد من المجموعات والمهام، إلا أن النموذج المذكور لم يُتجاوز بعد، بالرغم من بساطته الكبيرة وتدريسه المسبق فقط على مجموعة بيانات IMDB.في هذه الورقة، نُقدّم خطأً وُجد في إجراء تقييم هذا النموذج، والذي تم اكتشافه أثناء محاولة تحليل أداؤه الممتاز على مجموعة بيانات IMDB. ونُظهر أيضًا أن الدقة السابقة المبلغ عنها في الاختبار (97.42٪) غير صالحة، ويجب تصحيحها إلى 93.68٪. كما نحلل أداء النموذج باستخدام كميات مختلفة من بيانات التدريب (أجزاء فرعية من مجموعة بيانات IMDB)، ونقارنها بأداء نموذج Transformer المعروف بـ RoBERTa. تُظهر النتائج أن RoBERTa يمتلك ميزة واضحة عند استخدام مجموعات تدريب كبيرة، ولكن النموذج DV-ngrams-cosine يتفوّق على RoBERTa عندما تكون مجموعة التدريب المُعلَّمة صغيرة جدًا (10 أو 20 وثيقة فقط). وأخيرًا، نُقدّم خطة استخلاص عينات فرعية (sub-sampling scheme) تعتمد على أوزان بايزية بسيطة في عملية تدريب نموذج DV-ngrams-cosine، مما يؤدي إلى تسريع عملية التدريب وتحسين جودة النموذج.