الموثوقية تهم بالفعل: نهج متكامل للتصنيف الدلالي المراقب بشكل ضعيف

التفصيل الشامل الضعيف التحفيز هو مهمة صعبة، حيث يعتمد فقط على معلومات على مستوى الصورة كمصدر للتحفيز أثناء التدريب، لكنه يُنتج تنبؤات على مستوى البكسل أثناء الاختبار. لمعالجة هذه المهمة الصعبة، اقترح معظم النماذج الحديثة ذات الأداء الرائد حلولًا مكونة من خطوتين: أولاً، تعلم إنشاء أقنعة افتراضية على مستوى البكسل، وثانيًا، استخدام الشبكات العصبية التلافيفية الكاملة (FCNs) لتدريب نماذج التصنيف الشامل باستخدام هذه الأقنعة الافتراضية. ومع ذلك، غالبًا ما تستخدم هذه الحلول خطوات إضافية معقدة لإنتاج أقنعة افتراضية عالية الجودة، مما يجعل هذه الأساليب معقدة وغير أنيقة. في هذا العمل، نستفيد من العلامات على مستوى الصورة لإنتاج تسميات موثوقة على مستوى البكسل، ونصمم شبكة كاملة موجهة من البداية إلى النهاية لتعلم توقع خرائط التصنيف. بشكل مفصل، نستخدم أولًا فرع تصنيف الصور لتكوين خرائط تنشيط الفئة للتصنيفات المُعلّمة، والتي تُقَصَّ بعد ذلك إلى مناطق موثوقة صغيرة تتعلق بالكائنات أو الخلفية. ثم تُستخدم هذه المناطق الموثوقة مباشرة كعلامات صحيحة (ground-truth) لفرع التصنيف المتوازي، حيث يتم اعتماد دالة خسارة طاقوية كثيفة مصممة خصيصًا لتحسين الأداء. وعلى الرغم من بساطته الواضحة، يحقق حلنا المكون من خطوة واحدة أداءً تنافسيًا من حيث متوسط مقياس التداخل على مستوى التكرار (mIoU) على مجموعة بيانات Pascal VOC (val: 62.6، test: 62.9) مقارنةً بالحلول ذات الأداء الرائد المكونة من خطوتين. وبالتمديد لتطبيق طريقة خطوة واحدة هذه على نموذج مكون من خطوتين، نحقق أداءً جديدًا متفوقًا على مجموعة بيانات Pascal VOC (val: 66.3، test: 66.5).