التعلم العميق ذاتي الوتيرة للكشف عن الأشياء برقابة ضعيفة

في سيناريو الإشراف الضعيف، يجب تدريب كاشفات الأشياء باستخدام التسمية على مستوى الصورة فقط. نظرًا لعدم توفر الحقيقة الأرضية على مستوى صندوق الحدود، فإن معظم الحلول المقترحة حتى الآن تعتمد على إطار تعلم متعدد الحالات (Multiple Instance Learning) تكراري، حيث يتم استخدام المصنف الحالي لاختيار الصناديق ذات الثقة الأعلى في كل صورة، والتي يتم التعامل معها كحقيقة أرضية مزيفة في التكرار التالي للتدريب. ومع ذلك، يمكن أن تجعل أخطاء المصنف غير الناضج العملية تنحرف، مما يدخل عادة العديد من الإيجابيات الكاذبة في مجموعة البيانات التدريبية. لحل هذه المشكلة، نقترح في هذا البحث بروتوكول تدريب يستند إلى نموذج التعلم الذاتي السريع (self-paced learning). الفكرة الرئيسية هي اختيار مجموعة فرعية من الصور والصناديق التي تعتبر الأكثر ثقة بشكل تكراري واستخدامها للتدريب. بينما تم اعتماد استراتيجيات مشابهة للمصنفات الداعمة للمسار (SVMs) والمصنفات الأخرى خلال السنوات القليلة الماضية، فإننا أول من يظهر أن يمكن استخدام نهج التعلم الذاتي السريع مع مصنفات قائمة على الشبكات العميقة في خط أنابيب التدريب من البداية إلى النهاية (end-to-end). الطريقة التي نقترحها تستند إلى بنية Fast-RCNN بالإشراف الكامل ويمكن تطبيقها على بنى مماثلة تمثل الصورة الإدخال كحقيبة من الصناديق. نعرض نتائج رائدة في مجال Pascal VOC 2007 وPascal VOC 2010 وILSVRC 2013. وعلى ILSVRC 2013، فإن نتائجنا المستندة إلى شبكة AlexNet ذات القدرة المنخفضة تتخطى حتى تلك النتائج التي تعتمد على شبكات ذات قدرة أعلى بكثير في سياق الإشراف الضعيف.