منتجات WDC: معيار مطابقة الكيانات متعدد الأبعاد

يعتمد صعوبة مهمة مطابقة الكيانات على مجموعة من العوامل المتعددة، مثل كمية أزواج الحالات الحادة (corner-case pairs)، والنسبة المئوية للكيانات في مجموعة الاختبار التي لم تُرى أثناء التدريب، وحجم مجموعة التطوير. عادةً ما تمثل المعايير الحالية لمطابقة الكيانات نقاطًا واحدة فقط في الفضاء على طول هذه الأبعاد، أو توفر تقييمًا لأساليب المطابقة على بعد واحد فقط، مثل كمية بيانات التدريب. تقدم هذه الورقة معيار WDC Products، وهو معيار لمطابقة الكيانات يتيح تقييمًا منهجيًا لأنظمة المطابقة على مجموعات من الأبعاد الثلاثة مع الاعتماد على بيانات واقعية. الأبعاد الثلاثة هي: (أ) كمية الحالات الحادة، (ب) القدرة على التعميم على كيانات لم تُرَ من قبل، (ج) حجم مجموعة التطوير (مجموع مجموعة التدريب ومجموعة التحقق). يُعد التعميم على الكيانات غير المرئية بعدًا لم يُغطَ بعد في أي من المعايير الحالية باللغة الإنجليزية، ولكنه أمر بالغ الأهمية لتقييم متانة أنظمة مطابقة الكيانات. بدلًا من تعلُّم كيفية مطابقة أزواج الكيانات، يمكن أيضًا صياغة مطابقة الكيانات كمهمة تصنيف متعدد الفئات تتطلب من المطابق التعرف على الكيانات الفردية. يُعد WDC Products أول معيار يوفر صيغتين لنفس المهمة: صيغة زوجية (pair-wise) وصيغة تصنيف متعدد الفئات. تم تقييم WDC Products باستخدام عدة أنظمة متطورة حديثًا لمطابقة الكيانات، بما في ذلك Ditto وHierGAT وR-SupCon. أظهر التقييم أن جميع أنظمة المطابقة تواجه صعوبات في التعامل مع الكيانات غير المرئية، وبدرجات متفاوتة. كما أظهر أن التعلم التبايني (contrastive learning) لمطابقة الكيانات أكثر كفاءة من حيث كمية بيانات التدريب مقارنةً بالمحركات المتقاطعة (cross-encoders).