ك- bloque: كتلة تعارضية مراقبة داخل خطوط أنابيب حل الهوية

يهدف التمييز بين الكيانات إلى تحديد السجلات في مجموعات بيانات متعددة تمثل الكيان نفسه في العالم الحقيقي. ومع ذلك، فإن مقارنة جميع السجلات عبر مجموعات البيانات قد تكون مكلفة من حيث الحساب، مما يؤدي إلى أوقات تشغيل طويلة. لخفض هذه الأوقات، تُبنى أنظمة التمييز بين الكيانات من جزأين: مُعَلِّق (Blocker) يُطبّق طريقة رياضية رخيصة من حيث الحساب لاختيار أزواج السجلات المرشحة، ثم مُطابق (Matcher) يُحدد لاحقًا الأزواج المتطابقة من هذه المجموعة باستخدام طرق أكثر تكلفة. تقدم هذه الورقة طريقة التجزئة SC-Block التي تستخدم التعلم المُوجَّه بالتباين (Supervised Contrastive Learning) لوضع السجلات في الفضاء المُضمَّن (Embedding Space)، واستخدام بحث الجيران الأقرب (Nearest Neighbor Search) لبناء مجموعة المرشحين. قمنا بمقارنة SC-Block مع ثمانية أساليب حديثة في التجزئة. ولربط وقت التدريب لـ SC-Block بخفض الوقت الكلي لتشغيل أنظمة التمييز بين الكيانات، قمنا بدمج SC-Block مع أربع طرق مطابقة لتكوين أنظمة كاملة. لقياس الوقت الكلي للتشغيل، حددنا مجموعات مرشحة تحقق نسبة 99.5% من الاستكمال الزوجي، ثم قمنا بتمريرها إلى المطابق. أظهرت النتائج أن SC-Block قادرة على إنشاء مجموعات مرشحة أصغر، وأن الأنظمة التي تستخدم SC-Block تنفذ بسرعة تصل إلى 1.5 إلى 2 مرة مقارنة بالأنظمة التي تستخدم مُعَلِّقات أخرى، دون التضحية بدرجة F1. غالبًا ما تُقيَّم المُعَلِّقات باستخدام مجموعات بيانات صغيرة نسبيًا، مما قد يؤدي إلى إغفال تأثيرات زمنية ناتجة عن حجم قاموس كبير جدًا. ولقياس الأوقات في بيئة أكثر تحديًا، نقدّم مجموعة بيانات معيارية جديدة تتطلب تجزئة عدد كبير جدًا من عروض المنتجات. على هذه المجموعة المعيارية الكبيرة، تعمل الأنظمة التي تستخدم SC-Block مع أفضل طريقة مطابقة على تسريع التشغيل بنسبة 8 أضعاف مقارنة بالأنظمة التي تستخدم مُعَلِّقًا آخر مع نفس المطابق، حيث ينخفض الوقت من 2.5 ساعة إلى 18 دقيقة، مما يُبرر بوضوح الـ 5 دقائق المطلوبة لتدريب SC-Block.