الإزالة التكرارية على أنواع السمات غير الموحدة (D-HAT)
يتمثل التكرار في التعرف على تمثيلات متعددة لنفس الكائن في العالم الحقيقي. تركز معظم الحلول الحالية على البيانات النصية، ما يعني أن مجموعات البيانات التي تحتوي على أنواع سمات منطقية وعددية نادراً ما تُؤخذ بعين الاعتبار في الأدبيات، بينما يُعالج مشكلة القيم المفقودة بشكل غير كافٍ. لا يمكن تطبيق الحلول المراقبة دون وجود عدد كافٍ من الأمثلة المصنفة، ولكن الحصول على بيانات تدريب لمشكلة التكرار يتطلب عمليات مكلفة من حيث الوقت. كما يتطلب في مجموعات البيانات عالية الأبعاد هندسة الميزات لتجنب خطر التعلم الزائد. ولحل هذه التحديات، نتجاوز الدراسات السابقة من خلال D-HAT، وهو نموذج قائم على التجميع قادر بشكل طبيعي على التعامل مع الأنواع المختلفة من السمات عالية الأبعاد والنادرة والمتباينة. يرتكز هذا النموذج على: (أ) دالة مطابقة جديدة تلخص بشكل فعّال إشارات المطابقة المتعددة، و(ب) خوارزمية التجميع المبهرة MutMax التي تُصنّف الأزواج ذات أعلى درجة مطابقة متبادلة كمكررات. وقد قُمنا بتقييم D-HAT على خمس مجموعات بيانات معيارية وواقعية معروفة، وأظهرت النتائج أن نهجنا يتفوق على أحدث الخوارزميات المراقبة وغير المراقبة لمشكلة التكرار بشكل ملحوظ.