الندرة تُحدث معنى: التمييز بين المعاني الكلمية باستخدام تمثيلات كلمات سياقية نادرة

في هذه الورقة، نُظهر أن استخدام تمثيلات كلمات نادرة يمكّن من تجاوز نتائج النماذج الأكثر تعقيدًا المصممة خصيصًا للمهام على مهمة تفسير المعنى الدقيق لكلمات النص. تعتمد الخوارزمية المقترحة على مجموعة زائدة من المتجهات الأساسية الدلالية، مما يسمح لنا بالحصول على تمثيلات كلمات مُتَنَوِّعة (سِبَارْس) في السياق. نُقدّم تمثيلًا مُستوحى من نظرية المعلومات لـ "السينسيت" (synset)، يقوم على تكرار ظهور معاني الكلمات مع إحداثيات غير صفرية للأشكال الكلمية، مما يُمكّننا من تحقيق معدّل F الإجمالي البالغ 78.8 على مزيج من خمسة مجموعات معيارية لاختبار تفسير المعنى للكلمات. كما نُظهر مدى إمكانية تعميم الإطار المقترح من خلال تقييمه على مهام تحديد الفئة النحوية (part-of-speech tagging) باستخدام أربع مجموعات بيانات مختلفة (treebanks). تشير نتائجنا إلى تحسين ملحوظ مقارنةً باستخدام التمثيلات الكثيفة للكلمات.