الشبكات الكاملة الانتباهية مع تسمية العلامات ذاتية التكوين

تشير الدراسات الحديثة إلى أن نماذج التحويل البصري (ViTs) تتمتع بمقاومة عالية في السيناريوهات التي تخرج عن التوزيع الطبيعي. وبشكل خاص، حققت الشبكة ذات الانتباه الكامل (FAN)، وهي عائلة من النماذج الأساسية لـ ViT، أقصى درجات المقاومة المحققة حتى الآن. في هذه الورقة، نعيد النظر في نماذج FAN ونُحسّن عملية التدريب المسبق باستخدام إطار عمل يُسمى التسمية التلقائية للرموز (STL). يحتوي منهجنا على إطار تدريب مكوّن من مرحلتين. بشكل محدد، نبدأ بتدريب مُعلّق لرموز FAN (FAN-TL) لإنشاء تسميات للقطع (patch tokens) ذات معنى معنوي، يليه مرحلة تدريب نموذج FAN الطالب التي تستخدم كل من تسميات الرموز والعلامة الفئوية الأصلية. وباستخدام الإطار المُقترح STL، حقق أفضل نموذج لدينا بناءً على FAN-L-Hybrid (77.3 مليون معلمة) دقة أعلى بنسبة 84.8% في الدرجة الأولى (Top-1) و42.1% في المتوسط المُحتوى للانحراف (mCE) على بيانات ImageNet-1K وImageNet-C، وحقق أداءً قياسيًا جديدًا على ImageNet-A (46.1%) وImageNet-R (56.6%) دون الحاجة إلى بيانات إضافية، متفوّقًا بشكل كبير على النموذج الأصلي لـ FAN. كما أظهر الإطار المقترح تحسينًا ملحوظًا في الأداء على المهام التالية، مثل التصنيف الشكلي، حيث سجّل تحسينًا يصل إلى 1.7% في المقاومة مقارنة بالنموذج المقابل. يمكن الاطلاع على الشيفرة المصدرية عبر الرابط: https://github.com/NVlabs/STL.