T-NER: مكتبة بايثون شاملة لاستخراج الكيانات المعرفة المستندة إلى المحولات

أدى التدريب المسبق للنماذج اللغوية (LM) إلى تحسينات مستمرة في العديد من المهام النهائية في معالجة اللغة الطبيعية (NLP)، بما في ذلك التعرف على الكيانات المعرفية (NER). في هذه الورقة، نقدّم T-NER (الاست recognizer القائم على Transformer)، وهي مكتبة برمجية مكتوبة بلغة بايثون مخصصة لتحسين نماذج NER المُدرّبة مسبقًا. بالإضافة إلى فائدتها العملية، تُسهّل T-NER دراسة وقدرة النماذج اللغوية على التعميم عبر المجالات المختلفة واللغات المختلفة عند تحسينها على مهام NER. كما تقدّم المكتبة تطبيقًا ويبًا يسمح للمستخدمين بالحصول على توقعات النموذج تفاعليًا على أي نص، مما يُسهّل التقييم النوعي للنموذج بالنسبة للمبرمجين غير المتخصصين. نُظهر إمكانات المكتبة من خلال دمج تسع مجموعات بيانات عامة لـ NER في تنسيق موحد، وتقييم الأداء عبر المجالات واللغات المختلفة. تُظهر نتائج تجاربنا الأولية أن الأداء داخل المجال يكون عادةً منافسًا عبر جميع مجموعات البيانات. ومع ذلك، فإن التعميم عبر المجالات يظل تحديًا حتى مع استخدام نموذج مُدرّب مسبقًا كبير الحجم، رغم قدرته على تعلّم ميزات محددة للمجال إذا تم تحسينه على مجموعة بيانات مدمجة. ولتمكين الأبحاث المستقبلية، نُطلق أيضًا جميع نقاط التحقق (checkpoints) للنماذج الخاصة بنا عبر منصة Hugging Face Model Hub.