التصنيف التتابعي من النهاية إلى النهاية عبر شبكات LSTM-CNNs-CRF ثنائية الاتجاه

أنظمة التسمية المتسلسلة الأكثر تقدماً تتطلب تقليدياً كميات كبيرة من المعرفة الخاصة بالمهام على شكل خصائص مصنوعة يدوياً ومعالجة بيانات مسبقة. في هذا البحث، نقدم هندسة عصبية حيادية جديدة تستفيد تلقائياً من التمثيلات على مستوى الكلمات وعلى مستوى الحروف، وذلك باستخدام مزيج من شبكات LSTM ثنائية الاتجاه وشبكات CNN والنموذج CRF. نظامنا حقيقي من النهاية إلى النهاية، ولا يحتاج إلى هندسة الخصائص أو معالجة البيانات المسبقة، مما يجعله قابلاً للتطبيق على مجموعة واسعة من مهام التسمية المتسلسلة. قدمنا تقييماً لنظامنا على مجموعتين من البيانات لمهامين للتسمية المتسلسلة --- سجل Penn Treebank WSJ للتصنيف النحوي (POS) وسجل CoNLL 2003 للتعرف على الكيانات المسماة (NER). حققنا أداءً يتفوق على الأنظمة الحالية في كلتا المجموعتين --- دقة 97.55٪ في تصنيف الأجزاء النحوية ونسبة F1 تبلغ 91.21٪ في التعرف على الكيانات المسماة.