التعلم غير المراقب للسمات من خلال التمييز غير المعلمي للInstances

يمكن لفئات الشبكة العصبية التي تم تدريبها على بيانات تحتوي على علامات فئات مُعلّقة أن تُدرك أيضًا التشابه البصري الظاهري بين الفئات دون أن تُوجَّه صراحةً لذلك. ندرس ما إذا كان يمكن توسيع هذه الملاحظة إلى ما وراء المجال التقليدي للتعلم المراقب: هل يمكننا تعلّم تمثيل ميزات جيد يُدرك التشابه الظاهري بين الأمثلة، بدلًا من الفئات، من خلال طلب ببساطة أن تكون الميزات مميزة لكل مثال على حدة؟ نُصيغ هذا التصور كمشكلة تصنيف غير معلمية على مستوى المثال، ونستخدم تقنية التقدير المتناقض بالضوضاء (Noise-Contrastive Estimation) للتعامل مع التحديات الحسابية الناتجة عن العدد الكبير من فئات الأمثلة. تُظهر النتائج التجريبية أن طريقةً لدينا تتفوّق على أفضل النماذج الحالية في تصنيف ImageNet بفارق كبير ضمن بيئات التعلم غير المراقب. كما تُبرز طريقةُنا تميّزًا ملحوظًا في تحسين الأداء على الاختبار مع زيادة كمية البيانات التدريبية وتحسين هيكل الشبكة العصبية. وباستخدام التخصيص الدقيق (fine-tuning) للميزات المُكتسبة، نحصل أيضًا على نتائج تنافسية في مهام التعلم شبه المراقب والكشف عن الكائنات. يمتاز نموذجنا غير المعلمي بالكثافة العالية: مع 128 ميزة لكل صورة، يُستخدم فقط 600 ميغا بايت لتخزين مليون صورة، ما يُمكّن من استرجاع أقرب الجيران بسرعة في وقت التشغيل.