CurriculumNet: التعلم شبه المشرف من صور الويب على نطاق واسع

نقدم نهجًا بسيطًا ومع ذلك فعالًا قادر على تدريب الشبكات العصبية العميقة على صور ويب مراقبة بشكل ضعيف ومقياس كبير، والتي يتم جمعها من الإنترنت باستخدام استعلامات نصية، دون أي تسمية بشرية. لقد طوّرنا استراتيجية تعلم مبدئية عن طريق الاستفادة من التعلم المنهجي (curriculum learning)، بهدف التعامل مع كمية كبيرة من التسميات الضوضائية وعدم التوازن في البيانات بشكل فعال. قمنا بتصميم منهج تعلم جديد من خلال قياس تعقيد البيانات باستخدام كثافة توزيعها في مساحة الميزات، وترتيب التعقيد بطريقة غير مستقلة. هذا يسمح بتنفيذ فعال للتعلم المنهجي على صور الويب ذات الحجم الكبير، مما يؤدي إلى نموذج CNN عالي الأداء، حيث يتم تقليل الأثر السلبي للتسميات الضوضائية بشكل كبير. وبشكل مهم، أظهرنا عبر التجارب أن الصور التي تحتوي على تسميات ضوضائية عالية يمكن أن تحسن بشكل مدهش قدرة النموذج على التعميم، وذلك بمثابة نوع من التنظيم (regularization). حققت نهجتنا أفضل الأداء الحالي في أربع مقاييس: WebVision، ImageNet، Clothing-1M وFood-101. باستخدام مجموعة من عدة نماذج، حققنا معدل خطأ ضمن الخمسة الأوائل بنسبة 5.2% في تحدي WebVision لتصنيف الفئات الـ1000. كان هذا النتيجة هي الأفضل بأغلبية كبيرة، حيث تفوقت على المركز الثاني بمعدل خطأ نسبي يقارب 50%. الرموز والنماذج متاحة في: https://github.com/MalongTech/CurriculumNet .