CrossWeigh: تدريب تصنيف الكيانات الاسمية من التسميات غير الكاملة

كل الناس يخطئون. هذا ينطبق أيضًا على المصححين البشريين عند إعداد العلامات لتحديد الكيانات الاسمية (NER). قد تؤثر مثل هذه الأخطاء في العلامات سلبًا على تدريب النماذج وتتدخل في مقارنة النماذج. في هذه الدراسة، نغوص بعمق في أحد مجموعات البيانات المرجعية الشائعة لتحديد الكيانات الاسمية، وهو مجموعة بيانات CoNLL03 NER. تمكنا من تحديد أخطاء العلامات في حوالي 5.38% من جمل الاختبار، وهو نسبة كبيرة إذا ما علمنا أن درجة الدقة F1 لأحدث الاختبارات تبلغ حوالي 93%. لذلك، قمنا بتصحيح هذه الأخطاء يدويًا وتكوين مجموعة اختبار أكثر نقاءً. أدت إعادة تقييم النماذج الشهيرة على هذه المجموعة المصححة إلى تقديرات أكثر دقة مقارنة بتلك التي تم إجراؤها على المجموعة الأصلية. وأهم من ذلك، اقترحنا إطار عمل بسيط ولكنه فعال، يُعرف بـ CrossWeigh، للتعامل مع أخطاء العلامات أثناء تدريب نموذج تحديد الكيانات الاسمية (NER). بشكل خاص، يقوم هذا الإطار بتقسيم بيانات التدريب إلى عدة طيات ويتدرب على نماذج NER مستقلة لتحديد الأخطاء المحتملة في كل طية. ثم يتم ضبط أوزان بيانات التدريب وفقًا لذلك لتدريب النموذج النهائي لـ NER. أظهرت التجارب الواسعة تحسينات كبيرة عند استخدام مختلف نماذج NER ضمن الإطار الذي اقترحناه على ثلاث مجموعات بيانات. يمكن الحصول على جميع التنفيذ والمجموعة المصححة من مستودع Github الخاص بنا: https://github.com/ZihanWangKi/CrossWeigh.