التعلم من السياق أم الأسماء؟ دراسة تجريبية على استخراج العلاقات العصبية

أحرزت النماذج العصبية تقدماً ملحوظاً في مهام استخراج العلاقات (RE) على مجموعات البيانات القياسية. ومع ذلك، لا تزال هناك غموض حول نوع المعلومات التي تؤثر على قرارات النماذج الحالية، وكيفية تحسين أدائها بشكل أكبر. ولحل هذه المشكلة، قمنا بدراسة تجريبية لتأثير مصدرين رئيسيين للمعلومات في النص: السياق النصي وذكر الكيانات (الأسماء). ووجدنا أن (أ) رغم أن السياق هو المصدر الرئيسي الذي يدعم التنبؤات، فإن نماذج استخراج العلاقات تعتمد أيضاً بشكل كبير على المعلومات المستمدة من ذكر الكيانات، والتي تشمل في معظمها معلومات النوع، و(ب) قد تُسرب مجموعات البيانات الحالية قواعد تقريبية سطحية من خلال ذكر الكيانات، مما يساهم في الأداء العالي على مجموعات البيانات القياسية. بناءً على هذه التحليلات، نقترح إطاراً تدريبياً تناقضياً مُقنعاً للكيانات في مهمة استخراج العلاقات، بهدف فهم أعمق لكلا من السياق النصي ومعلومات النوع، مع تجنب الحفظ الآلي للكيانات أو الاعتماد على مؤشرات سطحية في التسميات. أجرينا تجارب واسعة الدائرة لدعم وجهات نظرنا، وأظهرنا أن إطارنا يمكنه تحسين كفاءة النماذج العصبية ومقاومتها في سيناريوهات مختلفة لاستخراج العلاقات. تم إتاحة جميع الشيفرات والبيانات على الرابط: https://github.com/thunlp/RE-Context-or-Names.