CAN-NER: شبكة انتباه تلافيفية لتحديد الكيانات المسماة في اللغة الصينية

التعرف على الكيانات المسماة (NER) في اللغة الصينية ضروري ولكنه صعب بسبب نقص الفواصل الطبيعية. ولذلك، يعتبر تقسيم الكلمات الصينية (CWS) الخطوة الأولى عادةً لـ NER في اللغة الصينية. ومع ذلك، فإن النماذج المستندة إلى تضمينات الكلمات وخصائص القاموس غالبًا ما تعاني من أخطاء التقسيم وكلمات خارج المفردات (OOV). في هذا البحث، ندرس شبكة انتباه متكررة تسمى CAN لـ NER في اللغة الصينية، والتي تتكون من شبكة عصبية متلافهة مستندة إلى الحروف مع طبقة انتباه محلي ووحدة متكررة محددة البوابة (GRU) مع طبقة انتباه ذاتي عالمي للاستفادة من المعلومات الواردة من الحروف المجاورة وسياقات الجمل. بالإضافة إلى ذلك، مقارنة بالنماذج الأخرى، فإن عدم الاعتماد على أي موارد خارجية مثل القواميس واستخدام حجم صغير من تضمينات الحروف يجعل نموذجنا أكثر عملية. تظهر النتائج التجريبية الشاملة أن نهجنا يتفوق على أفضل الأساليب المتاحة دون الحاجة إلى تضمينات الكلمات والموارد الخارجية مثل القواميس في مجموعة متنوعة من بيانات المجالات التي تشمل Weibo و MSRA ومجموعة بيانات NER للسيرة الذاتية الصينية.