هل تكون Transformers أكثر مقاومة من CNNs؟

يظهر نموذج الـ Transformer كأداة قوية في التعرف البصري. وبالإضافة إلى أداءه التنافسي على مجموعة واسعة من معايير الرؤية الحاسوبية، فإن الدراسات الحديثة تجادل أيضًا بأن نماذج الـ Transformers أكثر مقاومة من الشبكات العصبية التلافيفية (CNNs). ومع ذلك، بشكل مفاجئ، نجد أن هذه الاستنتاجات استُخلِصت من بيئات تجريبية غير عادلة، حيث تُقارَن نماذج الـ Transformers وCNNs على مقاييس مختلفة، وتُطبَّق عليها إطارات تدريب متميزة. في هذه الورقة، نهدف إلى تقديم أول مقارنة عادلة وشاملة بين نماذج الـ Transformers وCNNs، مع التركيز على تقييم المقاومة (الصلابة).وباستخدام إعداد تدريب موحد، نتحدى أولًا المعتقد السائد بأن نماذج الـ Transformers تتفوق على CNNs عند قياس المقاومة أمام الهجمات المضادة (الهجومية). وبشكل أكثر مفاجأة، نجد أن CNNs يمكن أن تصبح بنفس مستوى المقاومة الذي تتمتع به نماذج الـ Transformers في الدفاع ضد الهجمات المضادة، إذا ما تم تبنيها لوصفات التدريب الخاصة بـ Transformers بشكل مناسب. أما فيما يخص التعميم على العينات التي تخرج عن التوزيع (out-of-distribution)، فإننا نوضح أن التدريب المسبق على مجموعات بيانات كبيرة خارجية ليس شرطًا أساسيًا لتمكين نماذج الـ Transformers من تحقيق أداء أفضل من CNNs. علاوة على ذلك، تشير تحليلاتنا إلى أن هذه الميزة الأقوى في التعميم تُعزى في جزء كبير منها إلى البنية المعمارية ذات الانتباه الذاتي (self-attention-like) المميزة لنموذج الـ Transformer، وليس إلى بقية إطارات التدريب. نأمل أن تسهم هذه الدراسة في مساعدة المجتمع الأكاديمي على فهم أعمق وتقدير أكثر دقة لمقاومة نماذج الـ Transformers وCNNs. تم إتاحة الشفرة والنماذج بشكل عام عبر الرابط: https://github.com/ytongbai/ViTs-vs-CNNs.