التعلم غير المراقب للميزات البصرية من خلال المقارنة بين تعيينات المجموعات

لقد قلّصت التمثيلات غير المُراقبة للصور الفجوة مع التدريب المُراقب بشكل كبير، وخاصةً بفضل الإنجازات الأخيرة في أساليب التعلم التمييزي. عادةً ما تعمل هذه الأساليب التمييزية بشكل مباشر (online) وتستند إلى عدد كبير من المقارنات الثنائية الصريحة بين الميزات، وهو ما يشكل تحديًا حسابيًا كبيرًا. في هذه الورقة، نقترح خوارزمية مباشرة، تُدعى SwAV، والتي تستفيد من مزايا الأساليب التمييزية دون الحاجة إلى حساب المقارنات الثنائية. وبشكل محدد، تُجري طريقةنا تجميعًا للبيانات في آنٍ واحد، مع ضمان التماسك بين تعيينات المجموعات الناتجة عن تضمينات مختلفة (أو مُشاهد) لنفس الصورة، بدلًا من مقارنة الميزات مباشرةً كما في التعلم التمييزي. وبعبارة بسيطة، نستخدم آلية تنبؤ متبادل، حيث نتنبأ بتعيين المجموعة لمشاهدة ما من خلال التمثيل الخاص بمشاهدة أخرى. يمكن تدريب طريقتنا باستخدام حزم كبيرة وصغيرة، ويمكن توسيعها لتعمل مع كميات غير محدودة من البيانات. مقارنةً بالأساليب التمييزية السابقة، فإن طريقتنا أكثر كفاءة من حيث الذاكرة، لأنها لا تتطلب بنك ذاكرة كبيرًا أو شبكة تدرجية خاصة (momentum network). علاوةً على ذلك، نقترح أيضًا استراتيجية جديدة للتكبير البيانات، تُسمى "متعدد المحاصيل" (multi-crop)، التي تستخدم مزيجًا من المشاهد ذات دقة مختلفة بدلًا من استخدام مشهدين بدرجة وضوح كاملة، دون زيادة كبيرة في متطلبات الذاكرة أو الحوسبة. ونُثبت نتائجنا من خلال تحقيق دقة أعلى بنسبة 75.3% في الموضع الأول على مجموعة بيانات ImageNet باستخدام ResNet-50، كما تفوقت على التدريب المُراقب في جميع المهام المنقولة المُستعرضة.