استكشاف مقاومة النماذج اللغوية المُدرَّبة مسبقًا في مطابقة الكيانات
نمط التخصيص الدقيق للنماذج اللغوية المُدرّبة مسبقًا (PLMs) أثبت نجاحه في مطابقة الكيانات (EM). وعلى الرغم من أداؤها المتميز، فإن النماذج اللغوية المُدرّبة مسبقًا تُظهر ميلًا لتعلم ارتباطات وهمية من بيانات التدريب. في هذه الدراسة، نهدف إلى التحقيق في مدى موثوقية نماذج مطابقة الكيانات القائمة على PLMs في التطبيقات الواقعية، حيث تختلف توزيعات البيانات عن تلك المستخدمة في التدريب. ولتحقيق ذلك، قمنا بتصميم معيار تقييم لتقييم مقاومة نماذج EM أمام التغيرات، وذلك لتمكين تطبيقها في البيئات الواقعية. أظهرت تقييماتنا أن عدم توازن البيانات في بيانات التدريب يُعد مشكلة رئيسية تؤثر على المقاومة. كما لاحظنا أن التوسيع البيانات وحده لا يكفي لجعل النموذج مقاومًا. كحل لهذا، نقترح تعديلات بسيطة يمكنها تحسين مقاومة النماذج القائمة على PLMs في مطابقة الكيانات. تُظهر تجاربنا أن النموذج المقترح، رغم تحقيقه نتائج متفوقة في التعميم ضمن النطاق (in-domain generalization)، فإنه يحسن بشكل ملحوظ من مقاومة النموذج مقارنةً بالنماذج الرائدة في مجال EM.