التدريب المسبق البصري الفعّال باستخدام الكشف التبايني

أُظهر أن التدريب الذاتي المسبق يؤدي إلى تمثيلات قوية لتعلم الانتقال. ومع ذلك، فإن هذه المكاسب في الأداء تأتي بتكاليف حسابية كبيرة، حيث تتطلب الأساليب الرائدة حاليًا مستوىً من الحوسبة يزيد بمرتبة واحدة عن التدريب المسبق المراقب. نعالج هذه العقبة الحسابية من خلال تقديم هدف ذاتي جديد يُسمى "الكشف التمييزي"، الذي يُطلب من التمثيلات تحديد ميزات على مستوى الكائنات عبر التحويلات المختلفة. يؤدي هذا الهدف إلى استخلاص إشارة تعلّم غنية لكل صورة، مما يُحقق دقة انتقالية رائدة في مجموعة متنوعة من المهام اللاحقة، مع الحاجة إلى ما يصل إلى 10 أضعاف أقل في التدريب المسبق. وبشكل خاص، يُنافس نموذجنا الأقوى المُدرّب على ImageNet نموذج SEER، أحد أكبر الأنظمة ذاتية التدريب حتى الآن، والذي يستخدم 1000 مرة أكثر من بيانات التدريب المسبق. وأخيرًا، يتعامل هدفنا بشكل سلس مع التدريب المسبق على صور أكثر تعقيدًا مثل تلك الموجودة في COCO، مما يُقلل الفجوة مع التعلم الانتقالي المراقب من COCO إلى PASCAL.