التعرف البصري ذي التوزيع الطويل من خلال تعديل لوجيت السحابة الغاوسيّة

تبقى البيانات ذات التوزيع الطويل الذيل (long-tailed data) تحديًا كبيرًا للشبكات العصبية العميقة، على الرغم من النجاح الكبير الذي حققته في البيانات المتوازنة. لاحظنا أن التدريب القياسي على البيانات ذات التوزيع الطويل الذيل باستخدام خسارة التباديل العشوائية (cross-entropy loss) يؤدي إلى تضييق شديد في التوزيع المكاني للصفوف ذات العينة القليلة (tail classes) نتيجة لضغط الصفوف الغنية بالعينات (head classes)، مما يُعقّد عملية تصنيف عينات الصفوف الضعيفة. علاوة على ذلك، فإن خسارة التباديل العشوائية الأصلية قادرة فقط على نقل التدرجات على مدى قصير، وذلك لأن التدرج في الشكل التبادلي (softmax) يقترب بسرعة من الصفر مع زيادة الفرق في القيم المُدخلة (logits). يُعرف هذا الظاهرة باسم تشبع التباديل العشوائية (softmax saturation). وهي ظاهرة غير مفيدة في التدريب على بيانات متوازنة، لكن يمكن استغلالها لتعديل صحة العينات في البيانات ذات التوزيع الطويل الذيل، وبالتالي معالجة المساحة المدمجة المشوهة الناتجة عن هذه المشكلة. ولتحقيق ذلك، تُقدّم هذه الورقة طريقة تعديل القيم المُدخلة باستخدام توزيع غاوسي (Gaussian clouded logit adjustment)، وذلك عبر إضافة اهتزازات غاوسيّة مختلفة على القيم المُدخلة لكل فئة بحجم متفاوت. نعرّف حجم هذه الاهتزازات بـ "حجم السحابة" (cloud size)، ونُعيّن حجمًا كبيرًا نسبيًا للصفوف الضعيفة. يساعد هذا الحجم الكبير في تقليل تشبع التباديل العشوائية، مما يجعل عينات الصفوف الضعيفة أكثر نشاطًا ويشجع على توسيع المساحة المدمجة. ولتقليل التحيّز في المصنّف، نقترح أيضًا استراتيجية أخذ عينات تعتمد على الفئة مع إعادة تدريب المصنّف (class-based effective number sampling with classifier re-training). وقد أثبتت التجارب الواسعة على مجموعات بيانات معيارية أداءً متفوقًا للطريقة المقترحة. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/Keke921/GCLLoss.