استكشاف حدود التجميع العميق للصور باستخدام النماذج المُدرَّبة مسبقًا

نقدّم منهجية عامة تتعلم تصنيف الصور دون استخدام تسميات من خلال الاستفادة من مستخرجات الميزات المُدرّبة مسبقًا. يعتمد نهجنا على تدريب ذاتي (self-distillation) لرؤوس التجميع، معتمدًا على حقيقة أن الجيران الأقرب في الفضاء المميز المُدرّب مسبقًا من المرجّح أن يشتركا في نفس التسمية. نقترح دالة تكلفة جديدة تتعلم الارتباطات بين ميزات الصور من خلال إدخال نسخة معدلة من المعلومات التبادلية النقطية (pointwise mutual information) إلى جانب وزن الأمثلة. نُظهر أن الدالة المقترحة قادرة على تقليل تأثير الأزواج الخاطئة الإيجابية (false positive pairs) مع الاستفادة بكفاءة من البنية الموجودة في فضاء الميزات المُدرّب مسبقًا. كنتيجة، نُحسّن دقة التجميع مقارنةً بخوارزمية $k$-means على 17 نموذجًا مُدرّبًا مسبقًا بنسبة 6.1% على ImageNet و12.2% على CIFAR100، على التوالي. وأخيرًا، باستخدام نماذج التحويل البصري ذاتية التدريب (self-supervised vision transformers)، نحقق دقة تجميع تبلغ 61.6% على ImageNet. يُمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/HHU-MMBS/TEMI-official-BMVC2023.