منذ 11 أيام

إثارة حدود ResNets ذات التدريب التلقائي: هل يمكننا التفوق على التعلم المُشرف دون استخدام التسميات على ImageNet؟

Nenad Tomasev, Ioana Bica, Brian McWilliams, Lars Buesing, Razvan Pascanu, Charles Blundell, Jovana Mitrovic

الملخص

على الرغم من التقدم الأخير الذي أحرزته الطرق ذاتية التدريب في تعلم التمثيل باستخدام الشبكات المتبقية (Residual Networks)، تظل تؤدي أداءً أقل من التدريب المراقب في معيار تصنيف ImageNet، مما يحد من تطبيقاتها في السياقات التي تتطلب أداءً عاليًا. مستندين إلى رؤى نظرية سابقة من ReLIC [Mitrovic et al., 2021]، نُضَفُ إلى تعلم التمثيل ذاتي تحيزات استنتاجية إضافية. نُقدِّم طريقة جديدة لتعلم التمثيل ذاتي تُسمى ReLICv2، التي تدمج خسارة تمايز صريحة مع هدف تبايني على مجموعة متنوعة من العروض المُعدَّة بشكل مناسب للبيانات، بهدف تجنُّب تعلُّم الارتباطات الوهمية والحصول على تمثيلات أكثر إفادة. حققت ReLICv2 دقة قدرها $77.1\%$ في التصنيف الأولي (top-1) على ImageNet عند تقييم خطي باستخدام ResNet50، ما يُعد تحسينًا مطلقًا قدره $+1.5\%$ مقارنة بأفضل الأداء السابق؛ وفي النماذج الأكبر من ResNet، حققت ReLICv2 أداءً يصل إلى $80.6\%$، متفوقة على الطرق ذاتية التدريب السابقة بفارق يصل إلى $+2.3\%$. ومن أبرز إنجازاتها، أن ReLICv2 هي أول طريقة لتعلم التمثيل غير المراقب التي تتفوّق باستمرار على النموذج المراقب في مقارنة مباشرة على مجموعة متنوعة من معمارية ResNet. وباستخدام ReLICv2، نُتعلم أيضًا تمثيلات أكثر مقاومة وقابلية للنقل، والتي تُظهر أداءً أفضل في التعميم خارج التوزيع المُدرَّب مقارنة بالعمل السابق، سواء في تصنيف الصور أو التجزئة الدلالية. وأخيرًا، نُظهر أن ReLICv2، رغم استخدامها لمشغلات ResNet، تُقاس بمستوى الأداء المُتقدم في الطرق ذاتية التدريب القائمة على نماذج الرؤية المتعددة (Vision Transformers).