FGN: شبكة دمج الرموز لتحديد الكيانات الاسمية الصينية

إن معالجة التعرف على الكيانات المحددة في النص الصيني (Chinese NER) تمثل مهمة صعبة. وبما أن الأحرف الصينية تُعدّ صورًا رمزية (pictographs)، فإنها تحتوي على معلومات خفية متعلقة بالشكل (glyph information)، والتي تُهمل غالبًا في الدراسات السابقة. في هذا البحث، نُقدّم نموذجًا يُدعى FGN، أي "شبكة دمج الأشكال" (Fusion Glyph Network) لمعالجة التعرف على الكيانات المحددة في النص الصيني. بالإضافة إلى دمج معلومات الأشكال، يمكن لهذا النهج أيضًا إدخال معلومات تفاعلية إضافية من خلال آلية الدمج. تتميّز FGN بالابتكارات الرئيسية التالية: (1) اقتراح هيكل جديد للشبكة العصبية التلافيفية (CNN) يُسمى CGS-CNN، والذي يُمكنه استخلاص معلومات الأشكال، فضلًا عن معلومات التفاعل بين الأشكال المحيطة بالحروف المجاورة. (2) نقدّم طريقة جديدة تعتمد على نافذة منزلقة (sliding window) وآلية Slice-Attention لدمج تمثيلات BERT مع تمثيلات الأشكال لكل حرف، مما يمكّن من استخلاص معرفة تفاعلية محتملة بين السياق والشكل. أجرينا تجارب على أربع مجموعات بيانات لمعالجة التعرف على الكيانات المحددة، وأظهرت النتائج أن نموذج FGN، عند استخدامه مع تصنيف (tagger) LSTM-CRF، يحقق أداءً جديدًا يُعدّ الأفضل على الإطلاق في مجال التعرف على الكيانات المحددة باللغة الصينية. علاوةً على ذلك، أُجريت تجارب إضافية لدراسة تأثير العناصر المختلفة والضبطات المختلفة داخل نموذج FGN.