نظر أدق في التدريب الذاتي للتحليل الدلالي بدون تسميات صفرية

القدرة على تقسيم فئات غير مرئية لم تُلاحظ أثناء التدريب تمثل تحديًا تقنيًا مهمًا في التعلم العميق، نظرًا لقدرتها على تقليل التكلفة العالية المرتبطة بالتصنيف المعنوي (semantic segmentation). تسعى الطرق السابقة لتصنيف المعاني بدون تسميات (zero-label semantic segmentation) إلى معالجة هذه المهمة من خلال تعلم تمثيلات بصرية-معنوية أو نماذج توليدية. ومع ذلك، فإن هذه الأساليب عرضة للانخراط الزائد (overfitting) في الفئات المرئية، نظرًا لعدم توفر إشارة تدريب لهذه الفئات. في هذه الورقة، ندرس مهمة التصنيف المعنوي الصفري العام (generalized zero-label semantic segmentation) التي تمثل تحديًا كبيرًا، حيث يجب على النموذج أن يُقسّم كلًا من الفئات المرئية وغير المرئية أثناء الاختبار. نفترض أن بكسلات الفئات غير المرئية قد توجد في صور التدريب، ولكنها غير مُعلّمة. الفكرة الأساسية لدينا تتمثل في استخلاص المعلومات الكامنة للطبقات غير المرئية من خلال إشراف النموذج باستخدام تسميات افتراضية (pseudo-labels) تم إنتاجها ذاتيًا لبكسلات غير مُعلّمة. نقترح تنظيمًا اتساقًا (consistency regularizer) لتصفية التسميات الافتراضية الضوضائية من خلال أخذ تقاطع التسميات الافتراضية الناتجة عن تحويرات مختلفة للصورة نفسها. يتم في إطارنا إنشاء التسميات الافتراضية، ثم إعادة تدريب النموذج باستخدام بيانات مُعلّمة بشرية والتسميات الافتراضية. وتُكرر هذه العملية لعدة تكرارات. وبنتيجة ذلك، تحقق طريقةنا أداءً جديدًا في مستوى الحد الأقصى (state-of-the-art) على مجموعتي بيانات PascalVOC12 وCOCO-stuff في بيئة التصنيف المعنوي الصفري العام الصعبة، متفوقةً على الطرق الأخرى التي تعالج هذه المهمة باستخدام استراتيجيات أكثر تعقيدًا.