استخراج العلاقات على مستوى المستند باستخدام حدود تكيفية وتجزئة سياق موضعية

استخلاص العلاقات على مستوى المستند (RE) يطرح تحديات جديدة مقارنةً بنسخة استخلاص العلاقات على مستوى الجملة. فعادةً ما يحتوي مستند واحد على عدة أزواج كيانات، وقد تظهر نفس الزوج الكيانات عدة مرات داخل المستند، مترابطة بعلاقات محتملة متعددة. في هذه الورقة، نقترح تقنيتين جديدتين: التصنيف التكيفي للحد الأدنى (adaptive thresholding) وجمع السياق المحلي (localized context pooling)، لحل مشكلتي التصنيف متعدد العلامات (multi-label) والكيانات المتعددة (multi-entity). يُستبدل التصنيف التكيفي للحد الأدنى بالحد الأدنى العالمي المستخدم في الدراسات السابقة بحد أدنى قابل للتعلم يعتمد على الكيانات. أما جمع السياق المحلي، فيحول الانتباه مباشرةً من النماذج اللغوية المُدرّبة مسبقًا لتحديد السياقات ذات الصلة، والتي تُعد مفيدة في تحديد العلاقة. قمنا بتجريب النموذج ATLOP (Adaptive Thresholding and Localized cOntext Pooling) على ثلاث مجموعات بيانات معيارية لاستخلاص العلاقات على مستوى المستند: DocRED، وهي مجموعة بيانات كبيرة حديثة الإطلاق لاستخلاص العلاقات، بالإضافة إلى مجموعتي بيانات CDR وGDA في المجال الطبي الحيوي. حقق نموذج ATLOP نسبة F1 قدرها 63.4، وتفوق بشكل ملحوظ على النماذج الحالية على كل من مجموعتي CDR وGDA.