إلى تحسين مقاومة نموذج التحويل البصري

أظهرت التطورات الحديثة في نماذج التحويل البصري (ViT) ومتغيراتها المحسّنة أن الشبكات القائمة على الانتباه الذاتي تتفوق على الشبكات العصبية التلافيفية التقليدية (CNNs) في معظم مهام الرؤية الحاسوبية. ومع ذلك، فإن النماذج الحالية من ViT تركز بشكل رئيسي على الدقة القياسية وتكلفة الحساب، وتفتقر إلى دراسة التأثير الداخلي على موثوقية النموذج وقدرته على التعميم. في هذا العمل، نقوم بتقييم منهجي لمكونات ViT من حيث تأثيرها على المقاومة للامتدادات العدوانية، والتشوهات الشائعة، وانزياحات التوزيع. ووجدنا أن بعض المكونات قد تكون ضارة بموثوقية النموذج. من خلال استخدام المكونات المقاومة ودمجها كوحدات بناء لـ ViT، نقترح نموذج ViT المقاوم (RVT)، وهو نموذج جديد للتحويل البصري يتمتع بأداء متميز وموثوقية قوية. كما نقترح تقنيتين جديدتين يمكن تطبيقهما بسهولة تُسميان "توسيع الانتباه المُراعي للموضع" و"التعزيز على مستوى القطع"، والتي تُستخدم لتعزيز نموذج RVT، ونُختصر النموذج الناتج بـ RVT. تُظهر النتائج التجريبية على ImageNet وستة معايير مقاومة متقدمة تفوق RVT في المقاومة والقدرة على التعميم مقارنة بالنسخ السابقة من ViT والشبكات العصبية التلافيفية المتطورة. علاوة على ذلك، حقق النموذج RVT-S الترتيب الأول في العديد من لوحات الصدارة المتعلقة بالمقاومة، بما في ذلك ImageNet-C وImageNet-Sketch. وسيتم إتاحة الكود على الرابط: \url{https://github.com/alibaba/easyrobust}.