CorDEL: نهج تعليم عميق تناقضي للربط الكيانات

الربط الكائني (Entity Linkage (EL)) يُعد مشكلة حاسمة في تنظيف البيانات ودمجها. في العقود الأخيرة، تم إجراء الربط الكائني عادةً باستخدام نظم قائمة على القواعد أو نماذج التعلم الآلي التقليدية التي تعتمد على ميزات مُعدّة يدويًا، وكلتا الطريقتين تعتمدان بشكل كبير على المدخلات البشرية اليدوية. ومع النمو المستمر المتسارع للبيانات الجديدة، تم اقتراح نماذج قائمة على التعلم العميق (Deep Learning (DL)) لتقليل التكلفة العالية المرتبطة بعملية الربط الكائني في النماذج التقليدية. ورغم ذلك، فإن الاستكشاف الحالي للنماذج القائمة على التعلم العميق في مجال الربط الكائني يتبع بشكل صارم المعمارية المعروفة باسم "الشبكة الثنائية" (twin-network architecture). ومع ذلك، نحن نرى أن معمارية الشبكة الثنائية ليست مثالية لمشكلة الربط الكائني، مما يؤدي إلى عيوب جوهرية في النماذج الحالية. وللتغلب على هذه العيوب، نقترح إطارًا جديدًا وعامًا قائماً على التعلم العميق القائم على المقارنة (contrastive DL framework) للربط الكائني. يتميز الإطار المقترح بقدرته على اكتشاف إشارات التوافق من حيث البنية اللغوية (التركيبية) والمعنى (الدلالية) مع التركيز على الفروقات الدقيقة ولكن الحاسمة. بناءً على هذا الإطار، نطور طريقة جديدة قائمة على التعلم العميق القائم على المقارنة للربط الكائني، تُسمى CorDEL، والتي تضم ثلاث نسخ قوية. تم تقييم CorDEL من خلال تجارب واسعة أُجريت على مجموعات بيانات معيارية عامة وبيانات حقيقية من العالم. وقد أظهرت CorDEL تفوقًا بنسبة 5.2% على النماذج الرائدة السابقة في مجموعات البيانات المعيارية. علاوةً على ذلك، حققت CorDEL تحسنًا بنسبة 2.4% مقارنة بالنموذج الأفضل الحالي القائم على التعلم العميق في مجموعة البيانات الواقعية، مع تقليل عدد معاملات التدريب بنسبة 97.6%.