التقنية المُعدّلة المعتمدة على التوازن الفئوي للتعرف البصري الطويل الذيل

تُعد الصور الواقعية غالبًا مميزة بانحياز كبير في عدد الصور لكل فئة، مما يؤدي إلى توزيعات طويلة الذيل. وتعتبر الطريقة الفعّالة والبسيطة للاعتراف البصري طويل الذيل هي تعلُّم تمثيلات الميزة والفصل بشكل منفصل، باستخدام عينات متماثلة لكل مثيل وتمثيل متماثل لكل فئة، على التوالي. في هذا العمل، نقدّم إطارًا جديدًا، استنادًا إلى الملاحظة الأساسية بأن تمثيل الميزة الذي يُتعلم باستخدام عينات المثيلات ليس مثاليًا على الإطلاق في البيئات ذات الذيل الطويل. وتمثّل مساهمتنا الرئيسية طريقة تدريب جديدة تُسمّى "الاستخلاص المتماثل حسب الفئة" (CBD)، التي تستفيد من تقنية الاستخلاص المعرفي لتعزيز تمثيلات الميزة. تسمح CBD لتمثيل الميزة بالتطور في المرحلة الثانية من التدريب، بقيادة معلم تم تعلّمه في المرحلة الأولى. وتستخدم المرحلة الثانية عينات متماثلة حسب الفئة، بهدف التركيز على الفئات غير الكافية التمثيل. ويمكن لهذا الإطار أن يتكيف بشكل طبيعي مع استخدام عدة نماذج معلمة، مما يُمكّن من استغلال المعلومات من مجموعة من النماذج لتعزيز القدرة على التعرف. تُظهر تجاربنا أن التقنية المقترحة تتفوّق باستمرار على أحدث الطرق في معايير التعرف طويل الذيل مثل ImageNet-LT وiNaturalist17 وiNaturalist18.