CaCo: يمكن تعلُّم العينات الإيجابية والسلبية مباشرة من خلال التعلُّم التبايني التعاوني-العدائي

بصفتها طريقة ذاتية التدريب ممثلة، حققت التعلم التمييزي نجاحات كبيرة في التدريب غير المُشرَّف للتمثيلات. حيث يتم تدريب المُشفر (encoder) من خلال التمييز بين العينات الإيجابية والسلبية المعطاة كأساس للاستفسار (query anchors). تؤدي هذه العينات الإيجابية والسلبية إلى دور بالغ الأهمية في تحديد الهدف المطلوب لتعلم مُشفر تمييزي، مما يمنعه من تعلم ميزات بسيطة أو تافهة. في حين أن الطرق الحالية تختار هذه العينات بطريقة تجريبية، نقدّم هنا طريقة مبنية على مبادئ علمية، حيث تُتعلم العينات الإيجابية والسلبية مباشرةً بشكل متكامل (end-to-end) مع المُشفر. نُظهر أن العينات الإيجابية والسلبية يمكن تعلّمها بشكل تعاوني ومتناقض (أي تعاونية من ناحية واحدة، ومتناقضة من ناحية أخرى) من خلال تقليل وزيادة دالة التمييز (contrastive loss) على التوالي. هذا يُنتج عينات إيجابية تعاونية وعينات سلبية متناقضة بالنسبة للمُشفر، وتُحدّث باستمرار لتتماشى مع التمثيل المُتعلّم للأساسات (query anchors) عبر دفعات صغيرة (mini-batches). تحقّق الطريقة المقترحة دقة أعلى بنسبة 71.3% و75.3% على التوالي في التصنيف الأول (top-1 accuracy) عند تدريب نموذج ResNet-50 على مجموعة بيانات ImageNet1K لمدة 200 و800 دورة (epoch)، دون استخدام تقنيات مساعدة مثل التقطيع المتعدد (multi-crop) أو تضخيمات أقوى. وباستخدام تقنية التقطيع المتعدد، يمكن رفع الدقة إلى 75.7%. تم إصدار الشيفرة المصدرية والنموذج المُدرّب مسبقًا عبر الرابط: https://github.com/maple-research-lab/caco.