أكواب: إطار تعلم ذاتي متعدد الحُدود

في التعلم ذاتي التوجيه، يُعدّ اكتساب الميزات متعددة الحُدود أمرًا مطلوبًا بشدة، رغم ندرة الدراسات التي تناولته، وذلك لأن المهام اللاحقة المختلفة (مثل التصنيف العام والتصنيف الدقيق) تتطلب غالبًا ميزات ذات حُدود متعددة، مثل ميزات دقيقة جدًا أو خشنة، أو مزيجًا منها. في هذا العمل، نقدم لأول مرة إطارًا فعّالًا للتعلم ذاتي التوجيه متعدد الحُدود (Mugs) يهدف صراحةً إلى تعلّم ميزات بصرية متعددة الحُدود. يتميز Mugs بثلاثة أنواع متكاملة من الإشراف على الحُدود: 1) إشراف التمييز بين الحالات (IDS)، 2) إشراف جديد يُسمّى التمييز بين المجموعات المحلية (LGDS)، و3) إشراف التمييز بين المجموعات (GDS). يُستخدم IDS لتمييز الحالات المختلفة بهدف تعلّم ميزات دقيقة على مستوى الحالة. أما LGDS، فيقوم بتجميع الميزات الخاصة بصورة معينة وصورها المجاورة لتكوين ميزة جماعية محلية، ثم يجذب الميزات الجماعية المحلية الناتجة عن قطع مختلفة من الصورة نفسها نحو بعضها، ويدفعها بعيدًا عن الميزات الأخرى. وبهذا، يوفر LGDS إشرافًا مكملًا لـ IDS من خلال تحسين التوافق بين الجيران المحليين، ويُفرّق بين الجماعات المحلية المختلفة، مما يعزز قدرة التمييز. وبذلك، يُسهم في تعلّم ميزات دقيقة على مستوى الجماعة المحلية. أخيرًا، لمنع الجماعات المحلية المتشابهة من الانتشار بشكل عشوائي أو الانفصال بعيدًا عن بعضها، يُستخدم GDS لتقريب العينات المتشابهة، وبالتالي جمع الجماعات المحلية المتشابهة معًا، مما يُمكّن من اكتشاف ميزات خشنة على مستوى المجموعة (المعنىية). نتيجة لذلك، يمكن لـ Mugs استخلاص ثلاث أنواع من الميزات ذات الحُدود المختلفة، والتي تتمتع عادةً بعامية أعلى في مجموعة متنوعة من المهام اللاحقة مقارنةً بالميزات ذات الحدّ الواحد، مثل الميزات الدقيقة على مستوى الحالة في التعلم التكافؤي. وباستخدام التدريب المسبق فقط على ImageNet-1K، يحقق Mugs دقة جديدة قياسية (SoTA) في اختبار الاستبيان الخطي، بواقع 82.1% على ImageNet-1K، متفوقًا على أفضل نتائج سابقة بنسبة 1.1%. كما يتفوق على النماذج القياسية في مهام أخرى، مثل التعلم الناقل، والكشف عن الكائنات، والتقسيم البصري.