BoningKnife: الكشف المشترك عن ذكر الكيانات وتصنيفها لـ NER المضمنة عبر المعرفة الحدودية السابقة

بينما تعتبر تحديد الكيانات المسماة (NER) مهمة رئيسية في معالجة اللغة الطبيعية، فإن معظم النهج تستهدف فقط الكيانات المسطحة، متجاهلةً الهياكل المتداخلة التي تظهر بشكل شائع في العديد من السيناريوهات. تجوب معظم الطرق الحالية لـ NER المتداخل جميع التسلسلات الفرعية، وهو ما يكون باهظ الثمن وغير فعال، كما أنها لا تأخذ بعين الاعتبار معرفة الحدود بشكل جيد وهي مهمة للغاية للكيانات المتداخلة. في هذا البحث، نقترح نموذجًا مشتركًا لتحديد وإنشاء ذكر الكيانات عبر معرفة الحدود السابقة (BoningKnife) للتعامل بشكل أفضل مع مهام استخراج وتحديد الكيانات المتداخلة. يتكون BoningKnife من وحدتين، وهما MentionTagger و TypeClassifier. يحسن MentionTagger الاستفادة من معرفة الحدود خارج مجرد بداية/نهاية الكيان لتحسين التعامل مع مستويات التداخل والأطوال الأطول، بينما يولد مرشحات ذكر عالية الجودة. يستخدم TypeClassifier آلية انتباه ذات مستويين لفصل تمثيلات المستويات المتداخلة المختلفة وميزة أنواع الكيانات بشكل أفضل. نقوم بتدريب الوحدتين معًا باستخدام تمثيل مشترك وطبقة انتباه جديدة تحتوي على معلومات ثنائية، مما يؤدي إلى تحسين التركيز على المعلومات المتعلقة بالكيان. أظهرت التجارب على مجموعة متنوعة من قواعد البيانات أن نهجنا يتفوق على الطرق الرائدة سابقًا ويحقق درجات F1 قدرها 86.41 و 85.46 و 94.2 على ACE2004 و ACE2005 و NNE على التوالي.