نمذجة الضوضاء لتحديد الكيانات المسماة باستخدام الشبكات العصبية متعددة المهام على وسائل التواصل الاجتماعي

التعرف على الكيانات المسماة في الوثيقة هو مهمة أساسية في العديد من تطبيقات معالجة اللغة الطبيعية (NLP). رغم أن الأساليب الحالية الرائدة في هذه المهمة تحقق أداءً عالٍ على النصوص النظيفة (مثل أجناس الأخبار)، فإن تلك الخوارزميات تتدهور بشكل كبير عند نقلها إلى بيئات ضوضائية مثل مجالات وسائل التواصل الاجتماعي. نقدم نظامين يواجهان تحديات معالجة بيانات وسائل التواصل الاجتماعي باستخدام الصوتيات والصوتية على مستوى الحروف، ومتجهات الكلمات، وعلامات جزء الكلام كخصائص. النموذج الأول هو شبكة ذاكرة طويلة قصيرة ثنائية الاتجاه (BLSTM)-حقل عشوائي مشروط (CRF) من البداية إلى النهاية تحتوي طبقتها الخرج على مصنفين CRF. أما النموذج الثاني فيستخدم شبكة BLSTM متعددة المهام كمستخرج للخصائص ينقل التعلم إلى مصنف CRF لتنبؤ النهائي. حققت أنظمتنا تحسينًا في درجات F1 الحالية للأساليب الرائدة بنسبة 2.45% و3.69% على مجموعة بيانات مؤتمر عام 2017 حول النصوص المستخدمة التي تحتوي على ضوضاء، مما يجعلها أكثر ملاءمة للبيئات الاجتماعية.