إعادة النظر في البيانات السلبية لاستخراج العلاقة المراقبة عن بعد

يُولِّد التدريب البعيد تلقائيًا كميات كبيرة من عينات التدريب لاستخراج العلاقات. ومع ذلك، فإنه يُسبّب أيضًا مشكلتين رئيسيتين: العلامات الضوضائية وبيانات التدريب غير المتوازنة. ركّزت الدراسات السابقة أكثر على تقليل العلاقات التي تم تسميتها بشكل خاطئ (الإيجابيات الكاذبة)، في حين قلّت الجهود المبذولة لاستكشاف العلاقات المفقودة الناتجة عن عدم اكتمال قاعدة المعرفة (السلبيات الكاذبة). علاوةً على ذلك، يفوق عدد العلامات السلبية بكثير عدد العلامات الإيجابية في الصيغ السابقة للمشكلة. في هذه الورقة، نقدّم أولًا تحليلًا شاملاً للتحديات المذكورة أعلاه الناتجة عن البيانات السلبية. ثم نُصِف مشكلة استخراج العلاقات على أنها مهمة تعلم إيجابي غير مُعلَّم (Positive Unlabeled Learning) لتخفيف مشكلة السلبيات الكاذبة. ثالثًا، نقترح منهجية خطية تُسمّى \textsc{ReRe}، التي تُنفّذ كشف العلاقات على مستوى الجملة ثم استخراج الكائنات الفاعلة والمبتدأ، بهدف تحقيق تدريب فعّال من حيث العينات. تُظهر النتائج التجريبية أن الطريقة المقترحة تتفوّق باستمرار على الطرق الحالية، وتُبقي على أداء ممتاز حتى عند التعلّم باستخدام كميات كبيرة من العينات ذات الإيجابيات الكاذبة.