SLK-NER: استغلال المعرفة اللّغوية من الدرجة الثانية لاستخراج الأسماء المميزة في اللغة الصينية

رغم أن النماذج القائمة على الحروف التي تستخدم القواميس قد حققت نتائج واعدة في مهمة التعرف على الكيانات المحددة باللغة الصينية (NER)، إلا أن بعض الكلمات اللفظية قد تُدخل معلومات خاطئة بسبب تطابق غير دقيق للكلمات. وقد اقترح الباحثون العديد من الاستراتيجيات لدمج معرفة القواميس. ومع ذلك، فإن هذه الطرق تعتمد على معرفة قواميس من الدرجة الأولى بشكل بسيط، والتي توفر معلومات كلمات غير كافية، وتفاجأ بعدم التوافق في حدود الكلمات المطابقة؛ أو استكشفت معرفة القواميس باستخدام الرسوم البيانية، حيث قد تُربك المعلومات من الدرجة العليا، بما في ذلك الكلمات السلبية، عملية التعرف. ولتخفيف هذه القيود، نقدّم رؤية جديدة حول معرفة القواميس من الدرجة الثانية (SLK) لكل حرف في الجملة، بهدف توفير معلومات قواميسية أكثر شمولاً، تشمل الخصائص الدلالية وحدود الكلمات. واستناداً إلى هذه المعرفة، نقترح نموذجاً قائماً على SLK، مع استراتيجية مبتكرة لدمج معرفة القواميس المذكورة أعلاه. ويُمكن للنموذج المقترح استغلال معلومات أكثر وضوحاً حول الكلمات اللفظية بفضل السياق العالمي. وأظهرت النتائج التجريبية على ثلاث مجموعات بيانات عامة صحة مفهوم SLK، كما حقق النموذج المقترح أداءً أفضل من الأساليب المقارنة المتطورة حالياً.