Jigsaw-ViT: تعلّم ألغاز الجigsaw في نموذج التحويل البصري

لقد أدى النجاح الذي حققته نموذج التحويل البصري (ViT) في مهام الرؤية الحاسوبية المختلفة إلى انتشار متزايد لهذا الشبكة الخالية من التحويلات التلافيفية (convolution-free). ونظرًا لأن ViT يعمل على قطع الصور، فإن هذا يجعله مرتبطًا بشكل محتمل بمشكلة حل ألغاز القطع المجزأة (jigsaw puzzle)، وهي مهمة ذاتية التدريب كلاسيكية تهدف إلى إعادة ترتيب قطع الصور المختلطة تسلسليًا إلى شكلها الطبيعي. وعلى الرغم من بساطتها، أُثبت أن حل ألغاز القطع يُعد مفيدًا لمهام متنوعة باستخدام الشبكات العصبية التلافيفية (CNNs)، مثل تعلم تمثيل الميزات ذاتية التدريب، والتعميم عبر المجالات، والتصنيف الدقيق.في هذه الورقة، نستعرض حل ألغاز القطع كمهمة مساعدة ذاتية التدريب في ViT لتصنيف الصور، ونُسمّي النموذج الناتج Jigsaw-ViT. ونُظهر تعديلين يمكن أن يجعلا Jigsaw-ViT أفضل من ViT القياسي: التخلي عن التضمينات المكانية (positional embeddings) وتقنيّة تغطية القطع بشكل عشوائي. وعلى الرغم من بساطة هذه التعديلات، نجد أن Jigsaw-ViT قادر على تحسين كلا من التعميم والمتانة (robustness) مقارنةً بـ ViT القياسي، وهو ما يُعد عادةً تنازلاً بين الاثنين. من الناحية التجريبية، نُظهر أن إضافة فرع حل ألغاز القطع يوفر تعميمًا أفضل من ViT في تصنيف الصور على نطاق واسع على مجموعة ImageNet. علاوةً على ذلك، تُحسّن المهمة المساعدة من متانة النموذج أمام العلامات الضوضائية في مجموعات Animal-10N وFood-101N وClothing1M، وكذلك أمام الأمثلة المضادة (adversarial examples). يمكن الوصول إلى التنفيذ العملي للنموذج عبر الرابط التالي: https://yingyichen-cyy.github.io/Jigsaw-ViT/.