DocRED: مجموعة بيانات كبيرة لاستخراج العلاقات على مستوى الوثيقة

الكيانات المتعددة في الوثيقة تظهر عادةً علاقات جملية معقدة، ولا يمكن التعامل معها بشكل جيد من خلال طرق استخراج العلاقات (RE) الحالية التي تركز عادةً على استخراج العلاقات داخل الجملة لزوج واحد من الكيانات. بهدف تسريع البحث في استخراج العلاقات على مستوى الوثيقة، نقدم DocRED، وهو مجموعة بيانات جديدة تم بناؤها من ويكيبيديا وويكي بيانات بثلاث خصائص: (1) يُشِير DocRED إلى الكيانات المُسَمَّاة والعلاقات، وهو أكبر مجموعة بيانات تم توثيقها يدوياً لاستخراج العلاقات على مستوى الوثيقة من النص العادي؛ (2) يتطلب DocRED قراءة جمل متعددة في الوثيقة لاستخراج الكيانات واستنتاج علاقاتها من خلال دمج جميع معلومات الوثيقة؛ (3) بالإضافة إلى البيانات الموثقة يدوياً، نقدم أيضاً بيانات مراقبة بعيدة على نطاق واسع، مما يتيح استخدام DocRED في السيناريوهات المراقبة والشبه مراقبة. لتأكيد التحديات المرتبطة باستخراج العلاقات على مستوى الوثيقة، قدمنا طرق RE الحديثة الرائدة وأجرينا تقييماً شاملاً لهذه الطرق على DocRED. أظهرت النتائج التجريبية أن DocRED يعتبر تحدياً للطرق الحالية لـ RE، مما يشير إلى أن استخراج العلاقات على مستوى الوثيقة لا يزال مشكلة مفتوحة تتطلب المزيد من الجهود. بناءً على التحليل التفصيلي للتجارب، نناقش اتجاهات واعدة متعددة للبحث المستقبلي.