تعلم فئات المُؤشرات للتمييز الطويل الذيل

تلقى مشكلة التعرف على التوزيع الطويل الذيل (LTR) اهتمامًا متزايدًا في السنوات الأخيرة نظرًا للتوزيع القوي القائم على قانون القوة الذي يميز الكائنات في العالم الحقيقي. تستخدم معظم الدراسات الحديثة في LTR تصنيفات باستخدام دالة سويفت (softmax) التي تُعاني من انحياز، حيث ترتبط قيم معيار المصنف (classifier norm) بكمية بيانات التدريب لكل فئة. في هذا العمل، نُظهر أن تعلم مصنفات النموذج (prototype classifiers) يعالج مشكلة الانحياز في دالة السويفت ضمن LTR. يمكن لمصنفات النموذج تحقيق نتائج واعدة باستخدام طريقة "أقرب متوسط فئة" (NCM)، وهي حالة خاصة حيث تكون النماذج عبارة عن مركزيات تجريبية (empirical centroids). ونذهب خطوة إضافية، ونقترح تعلم النماذج بشكل مشترك باستخدام المسافات إلى النماذج في فضاء التمثيل كقيم لوجيت (logit scores) للتصنيف. بالإضافة إلى ذلك، نُحلل نظريًا الخصائص التي تُميّز مصنفات النموذج القائمة على المسافة الإقليدية، والتي تؤدي إلى تحسين تدريجي مستقر ومقاوم للقيم الشاذة (outliers). ولتمكين مقاييس بُعد مستقلة على طول كل قناة، نُحسّن مصنفات النموذج من خلال تعلُّم معاملات درجة حرارة تعتمد على القناة. تُظهر تحليلاتنا أن النماذج التي يتعلمها مصنف النموذج تكون أكثر فصلًا مقارنةً بالمركزيات التجريبية. وتُظهر النتائج على أربع معايير لـ LTR أن مصنف النموذج يتفوق أو يوازي الطرق الرائدة حاليًا. تم إتاحة الشفرة المصدرية لهذا العمل عبر الرابط: https://github.com/saurabhsharma1993/prototype-classifier-ltr.