ClusterEA: مواءمة الكيانات القابلة للتوسع مع التدريب العشوائي وتشابه الدفعات المصغرة المُعَمَّر

المحاذاة الكيانية (EA) تهدف إلى العثور على الكيانات المكافئة في الرسوم البيانية للمعرفة المختلفة (KGs). قدّمت الأساليب القائمة على التضمين هيمنةً على مهمة EA في السنوات الأخيرة. ومع ذلك، فإن هذه الطرق تواجه مشاكل ناشئة عن الخصائص الهندسية لـ متجهات التضمين، بما في ذلك التركيز والعزل. لحل هذه المشاكل الهندسية، تم تبني العديد من أساليب التطبيع لـ EA. ومع ذلك، فإن زيادة حجم الرسوم البيانية للمعرفة يجعل من الصعب على نماذج EA اعتماد عمليات التطبيع، مما يحد من استخدامها في التطبيقات الحقيقية. لمواجهة هذا التحدي، نقدم ClusterEA، إطارًا عامًا قادرًا على توسيع نطاق نماذج EA وتحسين نتائجها من خلال الاستفادة من أساليب التطبيع على الدفعات الصغيرة ذات معدل كيان مكافئ عالٍ. يتكون ClusterEA من ثلاثة مكونات لمحاذاة الكيانات بين الرسوم البيانية للمعرفة ذات الحجم الكبير، وهي التدريب العشوائي (stochastic training)، وClusterSampler، وSparseFusion. أولاً، يتم تدريب شبكة عصبية ثنائية كبيرة الحجم (Siamese GNN) بطريقة عشوائية لإنتاج تضمينات الكيانات. بناءً على هذه التضمينات، تم اقتراح استراتيجية ClusterSampler الجديدة لعينة الدفعات الصغيرة التي تتداخل بشكل كبير. أخيرًا، يدمج ClusterEA تقنية SparseFusion التي تقوم بتطبيع الشبه المحلي والعالمي ثم دمج جميع مصفوفات الشبه للحصول على مصفوفة الشبه النهائية. تقدم التجارب الواسعة باستخدام بيانات حقيقية على مقاييس EA رؤى حول الإطار المقترح وتشير إلى أنه قادر على تحقيق أداء أفضل بمقدار يصل إلى 8 مرات مقارنة بأحدث الإطارات القابلة للتوسيع في مجال EA فيما يتعلق بمؤشر Hits@1.