PushPull-Net: شبكة ResNet مقاومة لتشوهات الصور تعتمد على التثبيط

نقدم وحدة حسابية جديدة تُسمى PushPull-Conv في الطبقة الأولى من بنية ResNet، مستوحاة من ظاهرة التثبيط المضاد الطور التي تُلاحظ في القشرة البصرية الأولية. تعيد هذه الوحدة تعريف الطبقة التلافيفية التقليدية من خلال تنفيذ زوج من الفلاتر المكملة: نواة دفع قابلة للتدريب (push kernel) ونواتها المقابلة نواة سحب (pull kernel). تتعلم نواة الدفع (التي تشبه التلافيف التقليدي) الاستجابة لمحفزات معينة، بينما تستجيب نواة السحب لنفس المحفزات ولكن بتناوب تباين معاكس. يؤدي هذا التكوين إلى تعزيز الاختيارية للمحفزات، ويُثبّط بشكل فعّال الاستجابة في المناطق التي تفتقر إلى المحفزات المفضلة. يُعزى هذا التأثير إلى عمل نواتي الدفع والسحب معًا، حيث يُنتجان استجابتين ذات مقدار مماثل في تلك المناطق، مما يؤدي إلى تحييد بعضهما البعض. وقد أظهرت تجاربنا أن دمج PushPull-Conv في بنى ResNet يُعزز بشكل كبير من مقاومتها للتشوهات في الصور. كما أظهرت التجارب على مجموعات بيانات تشويه قياسية أن PushPull-Conv يمكن دمجها مع تقنيات أخرى للتكبير البيانات (data augmentation) لتحسين مزيد من مقاومة النموذج. وقد حددنا معيارًا جديدًا لمقاومة الأداء على ResNet50، حيث حققنا قيمة $mCE$ قدرها 49.95$\%$ على ImageNet-C عند دمج تقنية التكبير PRIME مع تثبيط PushPull.