HyperAIHyperAI
منذ 17 أيام

WikiGUM: ربط الكيان الشامل للتوثيق في 12 نوعًا من الأنواع

Jessica Lin, Amir Zeldes
WikiGUM: ربط الكيان الشامل للتوثيق في 12 نوعًا من الأنواع
الملخص

ركّزت الدراسات السابقة في ربط الكيانات على موارد تُركّز على الإشارات المُحدّدة غير المتشابكة للكيانات الخاصة، غالبًا في بيانات من ويكيبيديا، أي ما يُعرف بـ "ويكيفيكاشن" (Wikification). في هذه الورقة، نقدّم ونقيّم مجموعة بيانات تُسمّى WikiGUM، وهي مجموعة مُرَوّجة بالكامل عبر ويكيبيديا، وتشمل جميع الإشارات إلى الكيانات المُحدّدة، بما في ذلك الإشارات غير المُحدّدة والضمائر، فضلًا عن الإشارات المُدمجة داخل إشارات أخرى. تغطي المجموعة طيفًا واسعًا من 12 نوعًا مكتوبًا وشفهيًا، معظمها لم يُدرج في الجهود السابقة المتعلقة بربط الكيانات، مما أدى إلى أداء ضعيف لنظام مُدرّب مسبقًا وذو أداء متفوّق حاليًا في تقييمنا. كما تتيح التوافر المتعدد لأنواع أخرى من التسميات على نفس البيانات إمكانية مزيد من الأبحاث حول الكيانات في السياق.

WikiGUM: ربط الكيان الشامل للتوثيق في 12 نوعًا من الأنواع | أحدث الأوراق البحثية | HyperAI