شولان: نهج معياري للربط العضوي الكائني على ويكيبيديا وويكيداتا

في هذه الورقة، نقترح نموذج CHOLAN، وهو نهج معياري لاستهداف ربط الكيانات النهائية (EL) عبر قواعد المعرفة. يتكوّن CHOLAN من سلسلة متكاملة من نموذجين مبنيين على المحولات (transformers) يتم توظيفهما بالتتابع لتحقيق مهمة ربط الكيانات. يُستخدم النموذج المحول الأول لتحديد أشكال السطح (الإشارات إلى الكيانات) في النص المعطى. ثم، يُطبّق نموذج محول ثانٍ على كل إشارة لتصنيف الكيان المستهدف من بين قائمة مرشحة محددة مسبقًا. ويُغذى النموذج المحول الثاني بسياق مُثرّى مستخلص من الجملة (أي السياق المحلي)، بالإضافة إلى وصف الكيان المستمد من ويكيبيديا. وقد لم تُستخدم مثل هذه السياقات الخارجية في الطرق الحالية المتطورة لربط الكيانات. أُجريت دراسة تجريبية على قاعدتي معرفتين شهيرتين (أي ويكidata وويكيبيديا). وتبين النتائج التجريبية أن نموذج CHOLAN يتفوّق على الطرق المتطورة حاليًا على مجموعات بيانات قياسية مثل CoNLL-AIDA وMSNBC وAQUAINT وACE2004 وT-REx.