الشبكات الساياميز المقنعة للتعلم الفعّال بالبيانات المُعلّمة

نُقدّم شبكة سيايميز المُقنّعة (MSN)، وهي إطار عمل للتعلم ذاتي التوجيه لتعلم تمثيلات الصور. تعتمد طريقة عملنا على مطابقة تمثيل صورة تُظهر مناطق مُقنّعة عشوائيًا بتمثيل الصورة الأصلية غير المقنّعة. ويُعدّ هذا الاستراتيجية التدريبية ذاتية التوجيه مميزة من حيث القابلية للتوسع، خاصة عند تطبيقها على نماذج التحويل البصري (Vision Transformers)، نظرًا لأن الشبكة تُعالج فقط المناطق غير المقنّعة. وبنتيجة ذلك، تُحسّن شبكات MSN من قابلية التوسع في الهياكل المُدمجة المشتركة، مع إنتاج تمثيلات ذات مستوى دلالي عالٍ، وتُظهر أداءً تنافسيًا في تصنيف الصور بكميات محدودة من العينات. على سبيل المثال، على مجموعة بيانات ImageNet-1K، حقق نموذج MSN الأساسي دقة 72.4% في التصنيف الأولي (Top-1) باستخدام فقط 5,000 صورة مُعلّمة، وبلغت الدقة 75.7% عند استخدام 1% فقط من العلامات الخاصة بـ ImageNet-1K، مما يُشكّل حالة جديدة قياسية للتعلم ذاتي التوجيه على هذا المعيار. ويجدر بالإشارة إلى أن الكود الخاص بنا متاح للجمهور.