مُصنِّف مساعد قائمة على التشابه للتعرف على الكيانات الاسمية

يُعدّ مشكلة التقسيم واحدة من التحديات الأساسية المرتبطة بمهام التعرف على الكيانات الاسمية (NER)، والتي تهدف إلى تقليل أخطاء الحدود عند اكتشاف تسلسل كلمات الكيان. وقد تم اقتراح عدد كبير من النماذج المتقدمة، لكن معظمها يُظهر تدهورًا في الأداء عندما تزداد طول الكيانات. مستوحى من أعمال سابقة استخدمت استراتيجية متعددة المهام لحل مشكلة التقسيم، قمنا بتصميم فئة مساعدة تعتمد على التشابه (SAC)، التي تتمكن من التمييز بين كلمات الكيان وغير الكيان. على عكس الفئات التقليدية، تستخدم SAC متجهات لتمثيل التصنيفات، وبالتالي يمكنها حساب درجات التشابه بين الكلمات والتصنيفات، ثم حساب مجموع موزون لمتجهات التصنيفات، والذي يمكن اعتباره سمة مفيدة لمهام التعرف على الكيانات الاسمية. وقد تم استخدام النتائج التجريبية للتحقق من منطقية هيكل SAC، وتأكيد إمكانات نموذج SAC في تحسين الأداء مقارنةً بالطرق الأساسية التي استخدمناها.