الدقة مهمة: مجموعة واعية للدقة للفصل الدلالي شبه المشرف عليه

التمييز الدلالي شبه المشرف (WSSS) يستخدم الإشراف الضعيف، مثل التسميات على مستوى الصورة، لتدريب نموذج التمييز. رغم الإنجازات المثيرة للإعجاب في طرق WSSS الحديثة، فقد حددنا أن إدخال تسميات ضعيفة ذات تقاطع واتحاد متوسط عالي (mIoU) لا يضمن أداءً عاليًا في التمييز. أكدت الدراسات الحالية على أهمية التركيز على الدقة وتقليل الضوضاء لتحسين الأداء العام. وفي هذا السياق، نقترح ORANDNet، وهي منهجية متقدمة للمجموعات مصممة خصيصًا لـ WSSS. يقوم ORANDNet بدمج خرائط التنشيط الفئوي (CAMs) من تصنيفين مختلفين لزيادة دقة الأقنعة الزائفة (PMs). للحد أكثر من الضوضاء الصغيرة في الأقنعة الزائفة، ندمج تعلم المناهج. يتضمن هذا تدريب نموذج التمييز في البداية باستخدام أزواج صور صغيرة و PMs المقابلة لها، ثم الانتقال تدريجيًا إلى الأزواج الأصلية الحجم. من خلال دمج CAMs الأصلية من ResNet-50 و ViT، نحسن بشكل كبير أداء التمييز مقارنة بنموذج أفضل واحد ونموذج المجموعة البسيط على حد سواء. نوسع أيضًا منهجيتنا لمجموعات CAMs من نماذج AMN (مشابهة لـ ResNet) و MCTformer (مشابهة لـ ViT)، مما يحقق فوائد في أداء النماذج المتقدمة لـ WSSS. يبرز هذا الإمكانات الكبيرة لـ ORANDNet كوحدة إضافية نهائية لنماذج WSSS.