REXEL: نموذج شامل لاستخراج العلاقات وربط الكيانات على مستوى المستند

استخراج المعلومات المهيكلة من النصوص غير المهيكلة أمر حاسم لعديد من التطبيقات اللاحقة في معالجة اللغة الطبيعية (NLP) ويتم تحقيقه تقليديًا من خلال استخراج المعلومات المغلق (cIE). ومع ذلك، تعاني النهج الحالية لـ cIE من قيودين رئيسيين: (i) غالبًا ما تكون أنابيب معالجة مما يجعلها عرضة لنشر الأخطاء، و/أو (ii) تقتصر على مستوى الجملة مما يمنعها من التقاط الارتباطات طويلة المدى ويؤدي إلى وقت استدلال مكلف. نعالج هذه القيود بطرح REXEL، وهو نموذج فائق الكفاءة والدقة لأداء مهمة cIE على مستوى الوثيقة (DocIE) بشكل مشترك. يقوم REXEL بكشف الإشارات، تصنيف الكيانات، توضيح الكيانات، حل الإشارة المرجعية المشتركة وتصنيف العلاقات على مستوى الوثيقة في عملية تقدم واحدة لتوليد حقائق مرتبطة بالكامل بمخطط معرف مرجعي. وهو أسرع بمعدل 11 مرة من النماذج المنافسة الحالية في إعداد مشابه ويؤدي بشكل تنافسي سواء عند تحسينه لأي من المهام الفرعية الفردية أو لمجموعة متنوعة من تركيبات مختلفة للمهام المشتركة المختلفة، مما يتفوق على نقاط الأساس بمتوسط يزيد عن 6 نقاط F1. الجمع بين السرعة والدقة يجعل REXEL نظامًا دقيقًا وكفءًا من حيث التكلفة لاستخراج المعلومات المهيكلة على نطاق الويب. كما نطلق توسيعًا لمجموعة بيانات DocRED لتمكين معايرة الأعمال المستقبلية حول DocIE، وهي متاحة على الرابط https://github.com/amazon-science/e2e-docie.