FLERT: ميزات على مستوى المستند للاعتراف بالكائنات المعرفة

النهج المتطورة حاليًا في التعرف على الكيانات المحددة (NER) تُعتبر عادةً النصوص على مستوى الجملة، وبالتالي لا تُنمذج المعلومات التي تتجاوز حدود الجمل. ومع ذلك، فإن استخدام نماذج المُحَوِّل (Transformer-based) في NER يوفر خيارات طبيعية لالتقاط السمات على مستوى المستند. في هذه الورقة، نقوم بتقييم مقارن لسمات المستوى المستندية في النوعين القياسيين من معمارية NER الشائعة في الأدبيات، وهما "التحسين الدقيق" (fine-tuning) و"النموذج القائم على السمات باستخدام LSTM-CRF". نقيّم مختلف القيم المُحدِّدة (hyperparameters) الخاصة بسمات المستوى المستندية، مثل حجم النافذة السياقية وفرض التماسك المحلي على المستوى المستندية. نقدم تجارب تُمكّننا من استخلاص توصيات حول كيفية نمذجة السياق المستندية، كما نقدّم أرقامًا جديدة تمثل أفضل الأداء (state-of-the-art) على عدة مجموعات بيانات معيارية من مسابقة CoNLL-03. تم دمج نهجنا في إطار Flair لتسهيل إعادة إنتاج تجاربنا.