HyperAIHyperAI
منذ 2 أشهر

تحسين أداء ربط الكيانات من خلال الاستفادة من الوثائق غير المصنفة

Phong Le; Ivan Titov
تحسين أداء ربط الكيانات من خلال الاستفادة من الوثائق غير المصنفة
الملخص

تعتمد أنظمة ربط الكيانات الحديثة على مجموعات كبيرة من الوثائق التي تم تسميتها خصيصًا لهذه المهمة (مثل AIDA CoNLL). في المقابل، نقترح نهجًا يستغل المعلومات الطبيعية فقط: الوثائق غير المصنفة وويكيبيديا. يتكون هذا النهج من مرحلتين. أولاً، نقوم ببناء قائمة ذات استدعاء عالي من الكيانات المرشحة لكل ذكر في وثيقة غير مصنفة. ثانياً، نستخدم هذه القوائم المرشحة كإشراف ضعيف لقيود نموذج ربط الكيانات على مستوى الوثيقة لدينا. يتعامل النموذج مع الكيانات كمتغيرات مخفية، وعند تقديره على مجموعة من النصوص غير المصنفة، يتعلم اختيار الكيانات بالاعتماد على السياق المحلي لكل ذكر وعلى التناسق مع الكيانات الأخرى في الوثيقة. ينافس النهج الناتج الأنظمة الرائدة التي يتم إشرافها بشكل كامل في مجموعات الاختبار القياسية. كما أنه يقترب من أدائها في الإعداد الصعب للغاية: عند اختباره على مجموعة اختبار تم اختيارها من البيانات المستخدمة لتقدير الأنظمة الخاضعة للإشراف. عن طريق المقارنة مع تدريب نموذجنا باستخدام ويكيبيديا فقط، نثبت أن نمذجة الوثائق غير المصنفة تكون مفيدة.

تحسين أداء ربط الكيانات من خلال الاستفادة من الوثائق غير المصنفة | أحدث الأوراق البحثية | HyperAI