تحسين المقاومة تجاه التشوهات الشائعة من خلال تعديل الانزياح التبادلي

النماذج الحديثة لرؤية الآلة تُعاني من ضعف المقاومة تجاه تشوهات الصور مثل الضبابية أو العيوب الناتجة عن الضغط، مما يحد من أدائها في العديد من التطبيقات الواقعية. نحن هنا نشير إلى أن المعايير الشائعة التي تُستخدم لقياس مقاومة النموذج تجاه التشوهات الشائعة (مثل ImageNet-C) تقلل من تقييم مقاومة النموذج في العديد من السياقات التطبيقيّة (ولو ليس في جميعها). الفكرة الأساسية تكمن في أن العديد من السياقات تتيح وجود عيّنات غير مُصنّفة متعددة من التشوهات، ويمكن استخدامها لتناسب غير مراقب مباشر. استبدال الإحصائيات الخاصة بالتفعيل التي تُقدّر بواسطة التطبيع بالدفعة (Batch Normalization) على مجموعة التدريب بالإحصائيات الناتجة عن الصور المشوهة يُحسّن بشكل متسق من مقاومة النموذج عبر 25 نموذجًا شهيرًا في مجال رؤية الحاسوب. باستخدام الإحصائيات المصححة، تصل نموذج ResNet-50 إلى 62.2% من mCE على ImageNet-C مقابل 76.7% دون تكيف. وبالاعتماد على نموذج DeepAugment+AugMix الأكثر مقاومة، نُحسّن الحالة الراهنة التي حققها نموذج ResNet50 حتى الآن من 53.6% إلى 45.4% من mCE. حتى التكيف مع عيّنة واحدة يُحسّن من مقاومة نموذجي ResNet-50 و AugMix، كما أن 32 عيّنة كافية لتحسين الحالة الراهنة لبنية ResNet-50. نحن نُوصي بأن تُدرج النتائج التي تُعتمد على إحصائيات مُعدّلة في كل مرة يتم فيها الإبلاغ عن النتائج في معايير تشوهات الصور أو في سياقات أخرى للعامة خارج التوزيع.