نهج متعدد المهام لتحديد الكيانات المسماة في بيانات وسائل التواصل الاجتماعي

التعرف على الكيانات المسماة في بيانات وسائل التواصل الاجتماعي أمر معقد بسبب ضوضاء هذه البيانات المتأصلة فيها. بالإضافة إلى الهياكل النحوية غير الصحيحة، تحتوي على تباينات في الإملاء والعديد من الاختصارات غير الرسمية. نقترح نهجًا متعدد المهام جديدًا من خلال استخدام مهمة ثانوية أكثر عمومية وهي تقسيم الكيانات المسماة (NE Segmentation) جنبًا إلى جنب مع المهمة الرئيسية وهي تصنيف الكيانات المسماة بدقة عالية (Fine-grained NE Categorization). يتكون معمارية الشبكة العصبية المتعددة المهام من تعلم تمثيلات خصائص مرتبة أعلى من سلاسل الكلمات والحروف بالإضافة إلى الوسوم الأساسية لنوع الكلمة (Part-of-Speech Tags) والمعلومات الجغرافية (Gazetteer Information). تعمل هذه الشبكة العصبية كجهاز استخراج الخصائص لتزويد تصنيف Conditional Random Fields. تمكنا من الحصول على المركز الأول في الورشة الثالثة للنص المستخدم الضوضائي (WNUT-2017) بتسجيل درجة F1 للكيانات بلغت 41.86% ودرجة F1 لسطح النص بلغت 40.24%.