تحليل مهام معيار مطابقة الكيانات
يُعدّ التوقيع على الكيانات (Entity Matching) مهمة مركزية في دمج البيانات، وقد تم بحثها على مدار عقود. طوال هذه الفترة، تم تطوير مجموعة واسعة من المهام المعيارية لتقييم أساليب التوقيع على الكيانات. يقدّم هذا المقال المُرجعي تكميلاً منهجياً، وملخصاً تحليلياً، ومقارنة بين 21 مهمة معيارية للتوقيع على الكيانات. وللتمكن من فهم أدق التحديات المرتبطة بكل مهمة، نعرّف مجموعة من الأبعاد التحليلية التي تُمثّل الجوانب الأساسية لمهام التوقيع. وباستخدام هذه الأبعاد، نُشكّل مجموعات من المهام المعيارية ذات خصائص متشابهة. ثم نقيّم صعوبة المهام في كل مجموعة من خلال حساب نتائج التقييم الأساسية باستخدام هندسة الميزات القياسية مع طريقتين شائعتين للتصنيف. ولضمان إمكانية إعادة إنتاج نتائج التقييم بدقة، يجب أن تحتوي مهام التوقيع على مجموعات محددة بدقة من أزواج السجلات المتطابقة وغير المتطابقة، بالإضافة إلى تقسيم ثابت للبيانات التدريبية والاختبارية. وبما أن بعض المهام المعيارية الشائعة لا تتوفر عليها هذه الشروط، فقد قمنا بتكميل هذه المهام بمجموعات ثابتة من أزواج السجلات غير المتطابقة، وتقسيمات ثابتة، ونُزوّد المجموعات الناتجة من البيانات التدريبية والاختبارية للتحميل العام.من خلال التحليل التفصيلي وتكميل المهام المعيارية، ندعم الباحثين في اختيار مهام صعبة ومتنوعة، ونُمكّنهم من مقارنة أنظمة التوقيع على الكيانات على أسس واضحة ومحددة.