DocOIE: مجموعة بيانات تتمحور حول السياق على مستوى المستند لـ OpenIE

استخراج المعلومات المفتوح (Open Information Extraction) يهدف إلى استخراج أزواج علاقات منظمة (الفاعل، العلاقة، المفعول) من الجمل، ويؤدي دورًا حاسمًا في العديد من التطبيقات اللاحقة في معالجة اللغة الطبيعية (NLP). تعتمد الحلول الحالية على استخراج المعلومات على مستوى الجملة، دون الرجوع إلى أي معلومات سياقية إضافية. ومع ذلك، في الواقع، غالبًا ما توجد الجملة كجزء من مستند وليس بشكل منفصل؛ وغالبًا ما نحتاج إلى الوصول إلى المعلومات السياقية ذات الصلة حول الجملة قبل أن نتمكن من تفسيرها بدقة. وبما أن لا توجد حتى الآن قواعد بيانات مخصصة لاستخراج المعلومات المفتوح التي تأخذ بعين الاعتبار السياق على مستوى المستند، فقد قمنا يدويًا بتدوين 800 جملة من 80 مستندًا في مجالين (الرعاية الصحية والنقل) لتكوين مجموعة بيانات DocOIE لتقييم الأداء. بالإضافة إلى ذلك، قمنا بطرح نموذج جديد يُدعى DocIE، وهو نموذج مبتكر لاستخراج المعلومات المفتوح يأخذ بعين الاعتبار السياق على مستوى المستند. أظهرت نتائج التجارب التي أجريت على نموذج DocIE أن دمج السياق على مستوى المستند يُسهم بشكل مفيد في تحسين أداء استخراج المعلومات المفتوح. وتم إصدار كل من مجموعة بيانات DocOIE والنموذج DocIE بشكل مفتوح للجمهور.