التعلم المقابل يتنافس مع نمذجة الصور المقنعة في التدريب الدقيق من خلال التبادل المعرفي

نمذجة الصور المُقنعة (MIM) تتعلم تمثيلات تُظهر أداءً ممتازًا في التخصيص (fine-tuning)، مما يُهيمن على الطرق السابقة الشائعة للتدريب المسبق مثل تصنيف الصور، والتعلم المتناظر للInstances، وتوافق الصور والنصوص. في هذه الورقة، نُظهر أن أداء التخصيص الضعيف لهذه الطرق يمكن تحسينه بشكل ملحوظ من خلال عملية ما بعد بسيطة على شكل تبديل الميزات (Feature Distillation - FD). يحوّل تبديل الميزات التمثيلات القديمة إلى تمثيلات جديدة تمتلك خصائص مرغوبة قليلة، تمامًا كما تمتلكها التمثيلات الناتجة عن MIM. وتُسمّى هذه الخصائص، التي نُجمّعها تحت مصطلح "سهولة التحسين" (optimization friendliness)، وتم تحديدها وتحليلها باستخدام مجموعة من أدوات التشخيص المرتبطة بالانتباه (attention) والتحسين. وبفضل هذه الخصائص، تُظهر التمثيلات الجديدة أداءً قويًا في التخصيص. وبشكل خاص، تصبح طرق التعلم الذاتي المتناظر (contrastive self-supervised learning) مُتنافسة مباشرة مع أحدث خوارزميات نمذجة الصور المُقنعة (MIM) من حيث التخصيص. كما يُحسّن أداء التخصيص للنماذج CLIP بشكل كبير، حيث يصل نموذج CLIP ViT-L إلى دقة 89.0% في التصنيف على ImageNet-1K. وعلى نموذج SwinV2-G ذي 3 مليار معلمة، يُحسّن دقة التخصيص بنسبة +1.5 mIoU و+1.1 mAP، لتصل إلى 61.4 mIoU و64.2 mAP على مهام التجزئة الدلالية (ADE20K) وتحديد الكائنات (COCO) على التوالي، مما يُحدث أرقامًا قياسية جديدة على كلا المعيارين. والأهم من ذلك، تُقدّم هذه الدراسة طريقة لمستقبل الأبحاث تُمكن الباحثين من التركيز أكثر على عامّية وقابلية التوسع للتمثيلات المُتعلّمة، دون الحاجة إلى الاهتمام المفرط بسهولة التحسين، لأن هذه الخاصية يمكن تعزيزها بسهولة نسبيًا. سيتم إتاحة الكود على الرابط: https://github.com/SwinTransformer/Feature-Distillation.