الميزات اللفظية القوية لتحسين التعرف على الكيانات الاسمية في الشبكات العصبية

الطرق التي تعتمد على الشبكات العصبية في التعرف على الكيانات المسماة تقلل من الحاجة إلى ميزات تم تصميمها بعناية يدوياً. بينما لا تزال بعض الميزات موجودة في أنظمة الطليعة، فقد تم التخلي عن معظم الميزات اللغوية، باستثناء القوائم المرجعية (gazetteers). في هذا البحث، نثبت أن هذا الأمر غير عادل: فالميزات اللغوية مفيدة بالفعل. نقترح إدخال الكلمات وأنواع الكيانات في فضاء متجهي ذي أبعاد منخفضة نتدرب عليه من بيانات مشتقة عن الإشراف البعيد بفضل ويكيبيديا. ومن خلال ذلك، نقوم بحساب - خارج الخط - متجه ميزات يمثل كل كلمة. عند استخدام هذه التمثيلية مع نموذج شبكة عصبية متكررة تقليدية، فإنها تحقق تحسينات كبيرة. لقد حددنا درجة F1 جديدة للطليعة تبلغ 87.95 على مجموعة بيانات ONTONOTES 5.0، بينما حققنا أداءً يوازي الطليعة بدرجة F1 تبلغ 91.73 على مجموعة البيانات CONLL-2003 التي تم دراستها بشكل مكثف.