توصيف وتحسين متانة التعلم الذاتي من خلال تحسينات الخلفية

التطورات الحديثة في التعلم الذاتي بدون إشراف أظهرت نتائج واعدة في العديد من المهام البصرية. أحد العناصر المهمة في الطرق ذات الأداء العالي للتعلم الذاتي بدون إشراف هو استخدام تحسين البيانات من خلال تدريب النماذج على وضع صور محسنة مختلفة لنفس الصورة بالقرب من بعضها البعض في الفضاء المضمن. ومع ذلك، فإن خطوط الأنابيب الشائعة لتحسين البيانات تعالج الصور بشكل شامل، مما يتجاهل الصلة الدلالية لأجزاء الصورة - مثل الموضوع مقابل الخلفية - مما يمكن أن يؤدي إلى تعلم علاقات زائفة. يعمل بحثنا على معالجة هذه المشكلة من خلال دراسة فئة من تحسينات الخلفية البسيطة ولكنها فعالة للغاية، والتي تشجع النماذج على التركيز على المحتوى ذي الصلة دلاليًا عن طريق ردعها عن التركيز على خلفيات الصور. من خلال تحقيق منهجي، نوضح أن تحسينات الخلفية تقود إلى تحسينات كبيرة في الأداء عبر طيف واسع من أفضل الطرق الحالية للتعلم الذاتي بدون إشراف (MoCo-v2, BYOL, SwAV) في مجموعة متنوعة من المهام، مثل زيادة بنسبة 1-2% تقريبًا في ImageNet، مما يمكّن الأداء من الوصول إلى مستوى الطريقة الأساسية بالإشراف. بالإضافة إلى ذلك، نجد أن التحسن في الإعدادات ذات التسميات المحدودة أكبر بكثير ( يصل إلى 4.2%). كما أن تحسينات الخلفية تعزز متانة النماذج أمام عدد من الانحرافات التوزيعية، بما في ذلك الأمثلة المعادية الطبيعية، ImageNet-9، الهجمات المعادية، ImageNet-Renditions. لقد أحرزنا أيضًا تقدمًا في اكتشاف السلاسيوية تمامًا بدون إشراف (Saliency Detection)، أثناء عملية إنشاء أقنعة السلاسيوية المستخدمة لتحسينات الخلفية.