تعزيز اتساق التسميات في التعرف على الكيانات الاسمية على مستوى المستند

تمثّل عملية التعرف على الكيانات المحددة (NER) جزءًا أساسيًا في استخراج المعلومات من المستندات في التطبيقات الطبية الحيوية. يتميّز NER بميزة بارزة تتمثل في اتساقه في استخراج الكيانات الطبية الحيوية ضمن سياق المستند. وعلى الرغم من أن النماذج الحالية لـ NER على مستوى المستند تُظهر تنبؤات منتظمة، إلا أنها لا تزال لا تلبي توقعاتنا. وقد قمنا بدراسة ما إذا كانت الأسماء الصفة (adjectives) والحروف الجرّية (prepositions) داخل الكيانات تُسبب انخفاضًا في اتساق التسميات، ما يؤدي إلى تنبؤات غير منتظمة. في هذه الورقة، نقدّم طريقةً جديدة تُسمّى ConNER، التي تعزّز الاعتماد التسمياتي للمُعدّلات (مثل الأسماء الصفة والحروف الجرّية) لتحقيق اتساق أعلى في التسميات. تعزّز ConNER التسميات الأولية للمُعدّلات لتحسين تمثيلات المخرجات الخاصة بالكيانات الطبية الحيوية. وقد أُثبتت فعالية طريقة ConNER على أربع مجموعات بيانات شهيرة في مجال NER الطبي الحيوية؛ وبشكل خاص، أُثبتت فعاليتها على مجموعتي بيانات بتحسّن مطلق في مؤشر F1 بنسبة 7.5 إلى 8.6%. ونُفسّر أن طريقة ConNER تكون فعّالة على المجموعات التي تمتلك اتساقًا تسمياتيًا منخفضًا بطبيعتها. كما نُظهر في التحليل النوعي كيف تُسهم طريقتنا في جعل نموذج NER يُنتج تنبؤات منتظمة. يمكن الاطلاع على الكود والموارد الخاصة بنا عبر الرابط التالي: https://github.com/dmis-lab/ConNER/.