تمثيلات منفصلة تعزز مقاومة نموذج التحويل البصري

يُعدّ نموذج التحويل البصري (Vision Transformer - ViT) معماريةً متطورة تُعتبر حاليًا الأفضل في مجال التعرف على الصور. وعلى الرغم من أن الدراسات الحديثة تشير إلى أن نماذج ViT أكثر مقاومةً مقارنةً بنسخها القائمة على التحويل التوافقي (Convolutional)، فإن تجاربنا تُظهر أن نماذج ViT التي تم تدريبها على مجموعة بيانات ImageNet تعتمد بشكل مفرط على النسيج المحلي، ولا تُستغل بشكل كافٍ المعلومات المتعلقة بالشكل. ونتيجة لذلك، تواجه هذه النماذج صعوبةً في التعميم على بيانات واقعية خارج التوزيع (out-of-distribution). ولحل هذه النقص، نقدّم تعديلًا بسيطًا وفعّالًا على طبقة الإدخال في نموذج ViT، من خلال إضافة رموز منفصلة (discrete tokens) تم إنتاجها بواسطة مشفر مُعدّل متجهيًا (vector-quantized encoder). على عكس الرموز المستمرة التقليدية التي تمثل البكسلات، فإن الرموز المنفصلة تكون غير حساسة للتغيرات الصغيرة، وتتضمن كمية أقل من المعلومات بشكل فردي، مما يشجع نموذج ViT على تعلّم معلومات عامة (global information) تكون مستقلة عن التغيرات الصغيرة. تُظهر النتائج التجريبية أن إضافة تمثيل منفصل إلى أربع متغيرات معمارية تُعزّز مقاومة ViT بنسبة تصل إلى 12% عبر سبعة اختبارات مقاومة لبيانات ImageNet، مع الحفاظ على الأداء الممتاز على مجموعة بيانات ImageNet نفسها.