هل تفيد النماذج المُدرَّبة مسبقًا في إكمال المخططات المعرفية؟ تقييم موثوق ونهج معقول

في السنوات الأخيرة، أظهرت نماذج اللغة المُدرَّبة مسبقًا (PLMs) قدرتها على استخلاص المعرفة الواقعية من كميات هائلة من النصوص، مما دفع إلى اقتراح نماذج تعتمد على PLMs لإكمال رُسُم المعرفة (KGC). ومع ذلك، ما زالت هذه النماذج تُبقي على أداء أقل من النماذج الرائدة (SOTA) في مجال إكمال رُسُم المعرفة. في هذا العمل، نحدد سببين رئيسيين لضعف الأداء: (1) بيئة تقييم غير دقيقة. قد تُقلّل بيئة التقييم التي تعتمد على افتراض العالم المغلق (CWA) من تقييم نماذج KGC القائمة على PLMs بشكل غير عادل، نظرًا لأن هذه النماذج تُدخل معرفة خارجية إضافية؛ (2) استغلال غير مناسب للنماذج المُدرَّبة مسبقًا. تُستخدم معظم النماذج القائمة على PLMs في KGC ببساطة عن طريق دمج علامات الكيانات والعلاقات كمدخلات، ما يؤدي إلى جمل غير مترابطة لا تستغل المعرفة الضمنية المخزنة في نماذج PLMs بالكامل. ولتخفيف هذه المشكلات، نُبرز بيئة تقييم أكثر دقة تُعتمد على افتراض العالم المفتوح (OWA)، والتي تُجري فحصًا يدويًا لصحة المعرفة غير المُدرجة في رُسُم المعرفة. علاوةً على ذلك، مستوحى من تقنية تعديل المُحفِّزات (prompt tuning)، نُقدِّم نموذجًا جديدًا لـ KGC يعتمد على PLMs يُسمَّى PKGC. الفكرة الأساسية تكمن في تحويل كل ثلاثية (triple) ومعلومات الدعم المرتبطة بها إلى جمل طبيعية على شكل مُحفِّزات (prompts)، والتي تُقدَّم بعدها إلى نماذج PLMs لأغراض التصنيف. أظهرت نتائج التجارب على مجموعتي بيانات KGC أن OWA أكثر موثوقية في تقييم KGC، خاصةً في مهام توقع الروابط، كما أثبتت فعالية نموذجنا PKGC في بيئة CWA وOWA على حد سواء.