تحسين أداء ربط الكيانات من خلال الاستفادة من الوثائق غير المصنفة

تعتمد أنظمة ربط الكيانات الحديثة على مجموعات كبيرة من الوثائق التي تم تسميتها خصيصًا لهذه المهمة (مثل AIDA CoNLL). في المقابل، نقترح نهجًا يستغل المعلومات الطبيعية فقط: الوثائق غير المصنفة وويكيبيديا. يتكون هذا النهج من مرحلتين. أولاً، نقوم ببناء قائمة ذات استدعاء عالي من الكيانات المرشحة لكل ذكر في وثيقة غير مصنفة. ثانياً، نستخدم هذه القوائم المرشحة كإشراف ضعيف لقيود نموذج ربط الكيانات على مستوى الوثيقة لدينا. يتعامل النموذج مع الكيانات كمتغيرات مخفية، وعند تقديره على مجموعة من النصوص غير المصنفة، يتعلم اختيار الكيانات بالاعتماد على السياق المحلي لكل ذكر وعلى التناسق مع الكيانات الأخرى في الوثيقة. ينافس النهج الناتج الأنظمة الرائدة التي يتم إشرافها بشكل كامل في مجموعات الاختبار القياسية. كما أنه يقترب من أدائها في الإعداد الصعب للغاية: عند اختباره على مجموعة اختبار تم اختيارها من البيانات المستخدمة لتقدير الأنظمة الخاضعة للإشراف. عن طريق المقارنة مع تدريب نموذجنا باستخدام ويكيبيديا فقط، نثبت أن نمذجة الوثائق غير المصنفة تكون مفيدة.