استخراج الكيانات على مستوى الوثيقة كإنشاء القالب

استخراج الكيانات على مستوى الوثيقة (EE)، الذي يهدف إلى استخراج المعلومات المتمحورة حول الكيانات مثل أدوار الكيانات وعلاقاتها، هو أمر حاسم للاستحواذ التلقائي على المعرفة من مجموعات النصوص في مختلف المجالات. ومع ذلك، فإن معظم أنظمة استخراج الكيانات على مستوى الوثيقة تبني نماذج استخراجية، والتي تعاني من صعوبة في نمذجة الارتباطات طويلة الأجل بين الكيانات على مستوى الوثيقة. لحل هذه المشكلة، نقترح إطارًا جينيراتيفيًا لمهامين من مهام استخراج الكيانات على مستوى الوثيقة: استخراج الكيانات المرتبطة بالأدوار (REE) واستخراج العلاقات (RE). نقوم أولاً بصياغة هذين المهمتين كمشكلة إنشاء القوالب، مما يسمح للنماذج باستيعاب الارتباطات عبر الكيانات بكفاءة، واستغلال معاني العلامات، وتخطي التعقيد الحسابي الأسي لتحديد العلاقات N-ary (N-ary). يتم دمج آلية جديدة للتكرار بتوجيه الانتباه عبر الوثائق، تُعرف باسم TopK Copy، في نموذج تتابعي مُعدّ سلفًا لإثراء قدراته على تحديد المعلومات الرئيسية في الوثيقة الإدخال. أظهرت التجارب التي أجريت على مجموعة بيانات MUC-4 وSciREX نتائج جديدة رائدة في مجال استخراج الكيانات المرتبطة بالأدوار (+3.26%)، واستخراج العلاقات الثنائية (+4.8%)، واستخراج العلاقات 4-ary (+2.7%) بحسب مؤشر F1.