DWIE: مجموعة بيانات متمحورة حول الكيانات لاستخراج المعلومات على مستوى المستند متعدد المهام

تقدم هذه الورقة البحثية مجموعة البيانات DWIE، وهي "مجموعة بيانات Deutsche Welle لاستخراج المعلومات"، وهي مجموعة بيانات متعددة المهام تم إنشاؤها حديثًا، تدمج أربع مهام فرعية رئيسية في استخراج المعلومات (IE): (i) تمييز الكيانات الاسمية (NER)، (ii) حل التماثل (Coreference Resolution)، (iii) استخراج العلاقات (RE)، و(iv) ربط الكيانات (Entity Linking). تم تصميم DWIE كمجموعة بيانات تتمحور حول الكيانات، حيث تصف التفاعلات والخصائص الخاصة بالكيانات المفاهيمية على مستوى المستند الكامل. يختلف هذا النهج عن النماذج السائدة حاليًا التي تعتمد على التعامل مع التصريحات (mentions) من حيث اكتشافها وتصنيفها داخل جمل فردية. بالإضافة إلى ذلك، تطرح DWIE تحديين رئيسيين عند بناء نماذج استخراج المعلومات وتقييمها. أولًا، قد يؤدي استخدام مقاييس التقييم التقليدية على مستوى التصريحات في مهام NER وRE على مجموعة بيانات DWIE المتمحورة حول الكيانات إلى قياسات تُهيمن عليها التنبؤات المتعلقة بالكيانات التي تُذكر بشكل متكرر. ولحل هذه المشكلة، نقترح استخدام مقياس جديد يعتمد على الكيانات، يأخذ بعين الاعتبار عدد التصريحات التي تشكل كل كيان من التنبؤات والكيانات الحقيقية. ثانيًا، تتطلب التسميات متعددة المهام على مستوى المستند نقل المعلومات بين التصريحات المتعلقة بالكيانات الموزعة في أجزاء مختلفة من المستند، وكذلك بين المهام المختلفة ضمن إطار تعلم مشترك. ولتحقيق ذلك، نقترح استخدام تقنيات تمرير الرسائل العصبية القائمة على الرسوم البيانية بين فترات التصريحات على مستوى المستند. تُظهر تجاربنا تحسنًا يصل إلى 5.5 نقاط في معامل F1 عند دمج تمرير الشبكة العصبية الرسومية في النموذج المشترك. ويُظهر هذا الاحتمال الكبير لDWIE في تحفيز أبحاث إضافية في الشبكات العصبية الرسومية لتعلم التمثيل في استخراج المعلومات متعدد المهام. ونُشرت مجموعة البيانات DWIE بشكل عام على الرابط التالي: https://github.com/klimzaporojets/DWIE.