إعادة التفكير في التدريب المسبق والتدريب الذاتي

التدريب المسبق هو النموذج السائد في الرؤية الحاسوبية. على سبيل المثال، يُستخدم التدريب المسبق المُوجَّه على ImageNet بشكل شائع لتهيئة البنى الأساسية لنماذج الكشف عن الكائنات والتقسيم. ومع ذلك، يُظهر هِي وآخرون نتيجة مُدهشة تشير إلى أن التدريب المسبق على ImageNet له تأثير محدود على الكشف عن الكائنات في COCO. في هذه الدراسة، نستكشف التدريب الذاتي كطريقة أخرى لاستغلال البيانات الإضافية ضمن نفس الإعداد، ونُقارنه بالتدريب المسبق على ImageNet. تُظهر دراستنا العامية والمرونة في التدريب الذاتي من خلال ثلاث رؤى إضافية: 1) كلما زادت قوة معالجة البيانات وزيادة كمية البيانات المُعلَّمة، انخفضت قيمة التدريب المسبق بشكل أكبر؛ 2) على عكس التدريب المسبق، يكون التدريب الذاتي دائمًا مفيدًا عند استخدام معالجة بيانات أقوى، سواء في البيئات ذات البيانات القليلة أو العالية؛ 3) في الحالة التي يكون فيها التدريب المسبق مفيدًا، يُحسّن التدريب الذاتي من أداء النموذج. على سبيل المثال، على مجموعة بيانات الكشف عن الكائنات في COCO، يُفيد التدريب المسبق عندما نستخدم خمس كمية البيانات المُعلَّمة، ولكن يُضعف الدقة عندما نستخدم جميع البيانات المُعلَّمة. أما التدريب الذاتي، فيُظهر تحسينات إيجابية تتراوح بين +1.3 و+3.4 نقطة AP على جميع أحجام المجموعة. بعبارة أخرى، يعمل التدريب الذاتي بشكل جيد بالضبط في الإعداد الذي لا يعمل فيه التدريب المسبق (أي استخدام ImageNet لمساعدة COCO). وعلى مجموعة بيانات التصنيف في PASCAL، التي تمثل مجموعة بيانات أصغر بكثير من COCO، رغم أن التدريب المسبق يُحدث فرقًا كبيرًا، إلا أن التدريب الذاتي يُحسن من أداء النموذج المُدرَّب مسبقًا. على الكشف عن الكائنات في COCO، نحقق 54.3 نقطة AP، أي تحسنًا قدره +1.5 نقطة AP مقارنة بأقوى نموذج SpineNet. وعلى تصنيف PASCAL، نحقق 90.5 نقطة mIOU، أي تحسنًا قدره +1.5% مقارنة بالنتيجة الأفضل السابقة التي حققها DeepLabv3+.