التعلم المتناقض المتوازن للتمييز البصري ذي التوزيع الطويل الذيل

تتبع البيانات الواقعية عادةً توزيعًا طويل الذيل، حيث تمثل فئات الأغلبية القليلة معظم البيانات، بينما تحتوي الفئات الأقلية على عدد محدود من العينات. تعاني نماذج التصنيف التي تقلل من الانتروبيا المتقاطعة من صعوبة تمثيل وتصنيف الفئات الضعيفة. وعلى الرغم من أن مشكلة تعلم تصنيفات غير متحيزة قد تم دراستها بشكل جيد، إلا أن الطرق المتعلقة بتمثيل البيانات غير المتوازنة ما زالت غير مكتملة الاستكشاف. في هذا البحث، نركّز على تعلم التمثيل للبيانات غير المتوازنة. أظهر التعلم المتناهي المراقب حديثًا أداءً واعدًا على البيانات المتوازنة. ومع ذلك، من خلال تحليلنا النظري، نجد أنه في حالة البيانات ذات الذيل الطويل، يفشل في إنشاء بسيط منتظم (regular simplex)، وهو التكوين الهندسي المثالي لتعلم التمثيل. لتصحيح سلوك التحسين في SCL وتحسين أداء التعرف البصري على البيانات ذات الذيل الطويل بشكل أكبر، نقترح خسارة جديدة لتعلم التمثيل المتوازن (BCL). مقارنةً بـ SCL، تتميز BCL بتحسينين رئيسيين: الأول هو "متوسط الفئة" (class-averaging)، الذي يوازن مساهمة الجاذبات السلبية من الفئات المختلفة؛ والثاني هو "مكمل الفئة" (class-complement)، الذي يضمن ظهور جميع الفئات في كل دفعة صغيرة (mini-batch). يحقق المنهج المقترح لتعلم التمثيل المتوازن (BCL) شرط إنشاء بسيط منتظم، ويساعد في تحسين عملية تحسين الانتروبيا المتقاطعة. وباستخدام BCL، يمكن للإطار المزدوج الفروع المُقترح تحقيق تمثيل ميزات أقوى، وتحقيق أداءً تنافسيًا على مجموعات بيانات معيارية ذات ذيل طويل مثل CIFAR-10-LT، CIFAR-100-LT، ImageNet-LT، وiNaturalist2018. يتوفر الكود الخاص بنا على الرابط: https://github.com/FlamieZhu/BCL.