HyperAIHyperAI
منذ 18 أيام

استكشاف المعرفة الكيانية في BERT باستخدام رابط الكيانات النهائية المبسطة بالشبكة العصبية

Samuel Broscheit
استكشاف المعرفة الكيانية في BERT باستخدام رابط الكيانات النهائية المبسطة بالشبكة العصبية
الملخص

تتكون البنية النموذجية لأنظمة الربط النهائية بالكامل (end-to-end entity linking) من ثلاث خطوات: كشف التسمية (mention detection)، وتوليد المرشحات (candidate generation)، وحل التعددية (entity disambiguation). وفي هذه الدراسة، نستكشف الأسئلة التالية: (أ) هل يمكن تعلم جميع هذه الخطوات معًا باستخدام نموذج تمثيل النص المُتَنَوِّع سياقيًا، مثل نموذج BERT (Devlin et al., 2019)؟ (ب) ما مدى المعرفة الكائنية (entity knowledge) المخزنة بالفعل في نموذج BERT المُدرَّب مسبقًا؟ (ج) هل يؤدي إدخال معرفة كائنية إضافية إلى تحسين أداء BERT في المهام اللاحقة (downstream tasks)؟ وللإجابة على هذه الأسئلة، نقترح تبسيطًا شديدًا لبيئة الربط الكائني، والذي أظهر أداءً مفاجئًا وقويًا: إذ نُعدّ الربط الكائني كمهمة تصنيف لكل رمز (token) على طول المجموعة الكاملة للكائنات (بأكثر من 700 ألف فئة في حالتنا). ونُظهر من خلال تقييم على معيار معياري للربط الكائني أن (أ) هذا النموذج يُحسّن تمثيلات الكائنات مقارنةً بـ BERT التقليدي، (ب) أنه يتفوق على النماذج التقليدية للربط الكائني التي تُحسّن المهام بشكل منفصل، و(ج) أنه يُصنف ثانيًا فقط أمام الحالة المتطورة الحالية التي تُحسّن كشف التسمية وحل التعددية معًا. بالإضافة إلى ذلك، نستكشف فائدة تمثيلات الرموز المُدركة للكائنات (entity-aware token-representations) في معيار فهم النص GLUE، وكذلك في معايير إجابة الأسئلة SQUAD V2 وSWAG، ونظام الترجمة الآلية EN-DE WMT14. وبمفاجأة من جانبنا، نجد أن معظم هذه المعايير لا تستفيد من المعرفة الكائنية الإضافية، باستثناء مهمة ذات بيانات تدريب صغيرة جدًا، وهي مهمة RTE في معيار GLUE، والتي أظهرت تحسنًا بنسبة 2%.