الضجيج النقي لإنقاذ البيانات غير الكافية: تحسين التصنيف غير المتوازن من خلال التدريب على صور ضجيج عشوائي

على الرغم من التقدم الكبير في مهام التعرف البصري، لا يزال الشبكات العصبية العميقة تعاني من صعوبة في التعميم بشكل جيد عند توفر بيانات تدريب قليلة أو متوازنة بشكل كبير، مما يجعلها عرضة بشدة للحالات الواقعية. في هذه الورقة، نقدم طريقة بسيطة بشكل مفاجئ ولكنها فعالة للغاية للتخفيف من هذه القيود: استخدام صور ضوضاء نقية كبيانات تدريب إضافية. على عكس الاستخدام الشائع للضوضاء المضافة أو الضوضاء العدوية في تكبير البيانات (data augmentation)، نقترح منظورًا مختلفًا تمامًا من خلال التدريب مباشرةً على صور ضوضاء عشوائية نقية. نُقدّم طبقة جديدة تُسمى "الطبقة المُرشِّحة المُتَعَلِّمة على التوزيع" (Distribution-Aware Routing Batch Normalization - DAR-BN)، التي تُمكّن التدريب على صور ضوضاء نقية جنبًا إلى جنب مع الصور الطبيعية داخل نفس الشبكة. ويعمل هذا على تعزيز التعميم وتقليل الازدواجية (overfitting). تُحسّن الطريقة المقترحة أداء التصنيف غير المتوازن بشكل كبير، وتُحقّق نتائج متفوّقة على مجموعة واسعة من مجموعات بيانات التصنيف الطويلة الذيل (long-tailed) للصور (CIFAR-10-LT، CIFAR-100-LT، ImageNet-LT، Places-LT، وCelebA-5). علاوةً على ذلك، فإن الطريقة المقترحة بسيطة للغاية وسهلة الاستخدام كأداة تكبير عامة (بإضافة إلى التكبيرات الحالية)، ويمكن دمجها في أي خطة تدريب دون الحاجة إلى إجراءات توليد بيانات أو تدريب خاصة، مما يحافظ على سرعة التدريب وكفاءته.