الت régularisation للاعتراف بالكيانات الاسمية الطويلة

عند إجراء استخراج الكيانات المحددة (NER)، يختلف طول الكيان حسب المجال أو مجموعة البيانات المحددة. تُستخدم النماذج اللغوية المُدرَّبة مسبقًا (PLMs) لحل مهام NER، لكنها غالبًا ما تكون متحيزة تجاه أنماط مجموعة البيانات، مثل إحصائيات الطول، والشكل السطحي، وتوزيع الفئات المتوازن بشكل غير متساوٍ. تُعوق هذه التحيزات قدرة النماذج على التعميم، وهي مهارة ضرورية لمعالجة العديد من الإشارات غير المرئية في السياقات الواقعية. نقترح طريقة جديدة للحد من التحيز تُدعى RegLER لتحسين التنبؤات بالنسبة للكيانات ذات الأطوال المختلفة. وللتقليل من الفجوة بين التقييم والواقع، قمنا بتقييم النماذج اللغوية المُدرَّبة مسبقًا على مجموعات معيارية مُقسَّمة تحتوي على مجموعات من الإشارات غير المرئية. وفي هذا السياق، أظهرت RegLER تحسنًا ملحوظًا في الكيانات الطويلة، حيث يمكنها التنبؤ بها من خلال التخفيف من التحيز الناتج عن الربط أو الرموز الخاصة داخل الكيانات. علاوةً على ذلك، يوجد توازن غير متساوٍ شديد في معظم مجموعات بيانات NER، مما يؤدي إلى سيطرة أمثلة "سلبية سهلة" خلال التدريب، مثل كلمة "The". وتحلّ طريقة عملنا مشكلة التوزيع المتحيّز للفئات من خلال تقليل تأثير الأمثلة السلبية السهلة. أظهرت التجارب الواسعة في المجالات الطبية والعامة القدرة على التعميم لطرائقنا. ولتسهيل إعادة الإنتاج والعمل المستقبلي، نُطلق رمزنا البرمجي عبر الرابط التالي: https://github.com/minstar/RegLER