منذ 17 أيام
WikiGUM: ربط الكيان الشامل للتوثيق في 12 نوعًا من الأنواع
Jessica Lin, Amir Zeldes

الملخص
ركّزت الدراسات السابقة في ربط الكيانات على موارد تُركّز على الإشارات المُحدّدة غير المتشابكة للكيانات الخاصة، غالبًا في بيانات من ويكيبيديا، أي ما يُعرف بـ "ويكيفيكاشن" (Wikification). في هذه الورقة، نقدّم ونقيّم مجموعة بيانات تُسمّى WikiGUM، وهي مجموعة مُرَوّجة بالكامل عبر ويكيبيديا، وتشمل جميع الإشارات إلى الكيانات المُحدّدة، بما في ذلك الإشارات غير المُحدّدة والضمائر، فضلًا عن الإشارات المُدمجة داخل إشارات أخرى. تغطي المجموعة طيفًا واسعًا من 12 نوعًا مكتوبًا وشفهيًا، معظمها لم يُدرج في الجهود السابقة المتعلقة بربط الكيانات، مما أدى إلى أداء ضعيف لنظام مُدرّب مسبقًا وذو أداء متفوّق حاليًا في تقييمنا. كما تتيح التوافر المتعدد لأنواع أخرى من التسميات على نفس البيانات إمكانية مزيد من الأبحاث حول الكيانات في السياق.