المحاذاة غير المراقبة للكيانات في الرسوم البيانية المعرفية الزمنية

تمثيل الكيانات (EA) هو مهمة أساسية في دمج البيانات، تهدف إلى تحديد الكيانات المكافئة بين رُسُوم المعرفة المختلفة (KGs). تمدد رُسُوم المعرفة الزمنية (TKGs) للرسوم التقليدية من خلال إدخال تواريخ زمنية، وقد لاقت اهتمامًا متزايدًا في الآونة الأخيرة. أشارت الدراسات الحديثة في مجال تمثيل الكيانات المُدركة للزمن إلى أن المعلومات الزمنية في TKGs تسهم في تحسين أداء EA. ومع ذلك، لم تُستغل الدراسات الحالية الفوائد الكاملة للمعلومات الزمنية في TKGs. علاوةً على ذلك، تقوم هذه الدراسات بتمثيل الكيانات مسبقًا من خلال أزواج مُنسَّقة، وهي عملية تستهلك وقتًا كبيرًا وتُعد غير فعالة.في هذه الورقة، نقدم نموذج DualMatch الذي يُدمج بشكل فعّال بين المعلومات العلاقاتية والمعلومات الزمنية لتمثيل الكيانات. يحوّل DualMatch مهمة تمثيل الكيانات في TKGs إلى مشكلة تطابق رسم بياني موزون. وبشكل أكثر تحديدًا، يمتلك DualMatch طريقة غير مُشرَّفة تُمكّنه من تحقيق تمثيل الكيانات دون الحاجة إلى وجود تطابقات أولية (seed alignment). يتكون DualMatch من خطوتين: (i) ترميز المعلومات الزمنية والعلاقاتية بشكل منفصل باستخدام مشغل جديد لا يعتمد على التسمية، يُسمى Dual-Encoder؛ و (ii) دمج المعلومات المُرمَّزة وتحويلها إلى تطابق باستخدام مشغل جديد مبني على تطابق الرسوم البيانية، يُسمى GM-Decoder. بفضل قدرته على التقاط المعلومات الزمنية بشكل فعّال، يمكن لـ DualMatch إجراء تمثيل الكيانات في TKGs سواءً في بيئة مُشرَّفة أو غير مُشرَّفة. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات حقيقية من TKGs أن DualMatch يتفوّق على أحدث الطرق في الأداء، بزيادة بنسبة 2.4% إلى 10.7% في مقياس H@1، وبنسبة 1.7% إلى 7.6% في مقياس MRR على التوالي.