التعلم المُقنَّع للبُقايا الصورية لتوسيع نماذج الرؤية من نوع Vision Transformers بشكل أعمق

النماذج العميقة من نماذج التحول البصري (ViTs) تُعد أكثر صعوبة في التدريب. نكشف عن مشكلة تدهور في الطبقات العميقة لنموذج ViT عند استخدام نموذج التماسك الصوري المُقنع (MIM) للتدريب المسبق. ولتسهيل تدريب نماذج ViT العميقة، نقدّم إطارًا للتعلم الذاتي يُسمى تعلم الباقي الصوري المُقنع (MIRL)، والذي يخفف بشكل كبير من مشكلة التدهور، مما يجعل التوسع في عمق نموذج ViT اتجاهًا واعدًا لتحسين الأداء. نعيد صياغة هدف التدريب المسبق للطبقات العميقة في ViT إلى تعلّم استعادة الباقي (residual) للصورة المقنعة. ونقدم أدلة تجريبية واسعة تُظهر أن نماذج ViT العميقة يمكن تحسينها بكفاءة باستخدام MIRL، وتحصل بسهولة على دقة أعلى مع زيادة العمق. وباستخدام نفس مستوى التعقيد الحسابي المُستخدم في ViT-Base وViT-Large، نُنشئ نماذج أعمق بـ 4.5 مرة و2 مرة على التوالي، ونُسمّيها ViT-S-54 وViT-B-48. ويحقق نموذج ViT-S-54 الأعمق، الذي يُكلّف فقط ثلث تكلفة ViT-Large، أداءً مُوازيًا لأداء ViT-Large. أما ViT-B-48، فيحقق دقة 86.2% في تصنيف الصور (top-1 accuracy) على مجموعة بيانات ImageNet. من جهة، تُظهر نماذج ViT العميقة المُدرّبة مسبقًا باستخدام MIRL قدرات تعميم ممتازة على المهام اللاحقة، مثل كشف الكائنات والتقسيم الدلالي. ومن جهة أخرى، تُظهر MIRL كفاءة عالية في التدريب المسبق، حيث تُنتج أداءً تنافسيًا مقارنة بأساليب أخرى، رغم استهلاكها وقتًا أقل في التدريب المسبق.