AdaIN المُتَبَدِّلَة: تقليل التحيز تجاه الإحصائيات العالمية في التصنيف الصوري

أظهرت أعمال حديثة أن تصنيفات الشبكات العصبية التلافيفية تعتمد بشكل مفرط على السمات النسيجية على حساب السمات الشكلية. نحن نقدم تمييزًا مشابهًا ولكن مختلفًا بين الشكل والسمات المحلية للصورة من جهة، والإحصائيات الصورية الشاملة من جهة أخرى. نُقدّم طريقة تُسمى التطبيع التكيّفي المُحوّل (pAdaIN)، والتي تقلل من تمثيل الإحصائيات الشاملة في الطبقات المخفية لتصنيف الصور. تقوم pAdaIN بأخذ تبديل عشوائي $π$ يعيد ترتيب العينات في مجموعة معينة. ثم تُطبّق الوحدة التكيّفية للتناظر الفردي (AdaIN) بين نشاطات كل عينة (غير المُحَوَّلة) $i$ ونشاطات العينة المقابلة $π(i)$، مما يؤدي إلى تبادل الإحصائيات بين عينات المجموعة. وبما أن الإحصائيات الصورية الشاملة تُشوه، فإن هذه العملية تُجبر الشبكة على الاعتماد على سمات مثل الشكل أو النسيج. وباختيار التبديل العشوائي باحتمال $p$، والتبديل الهويّة في الباقي، يمكن التحكم في شدة التأثير.وباختيار القيمة المناسبة لـ $p$، التي تُحدّد مسبقًا لكل التجارب دون الاعتماد على بيانات الاختبار، تتفوّق طريقتنا باستمرار على النماذج الأساسية في عدة بيئات. في تصنيف الصور، تُحسّن طريقتنا الأداء على كل من CIFAR100 وImageNet باستخدام هياكل متعددة. في سياق المقاومة (الروبوستية)، تُحسّن الطريقة الأداء على كل من ImageNet-C وCifar-100-C لعدة هياكل. وفي سياق التكيّف بين المجالات والعامّة للمجالات، تحقّق الطريقة نتائج من الطراز الرائد في مهمة التعلم المنقولة من GTAV إلى Cityscapes، وفي معيار PACS.