التقسيم الحسباني حسب البكسل ليس كل ما تحتاجه للفصل الدلالي

تُصاغ النماذج الحديثة عادةً مسألة التجزئة الدلالية على أنها مهمة تصنيف لكل بكسل، بينما يُعالج التجزئة على مستوى الكائنات باستخدام تصنيف قناع بديل. رؤيتنا الأساسية: إن تصنيف القناع كافٍ من حيث العمومية لحل مهام التجزئة الدلالية ومستوى الكائنات بشكل موحد باستخدام النموذج نفسه، ووظيفة الخسارة نفسها، وطريقة التدريب نفسها. استنادًا إلى هذه الملاحظة، نقترح نموذج MaskFormer، وهو نموذج بسيط لتصنيف القناع يُنبِّئ بקבוצה من القناع الثنائية، كل منها مرتبط بتنبؤ بفئة عالمية واحدة. بشكل عام، يبسط الأسلوب القائم على تصنيف القناع المشهد المتعلق بالأساليب الفعّالة لمهام التجزئة الدلالية والشاملة (البانوبتيك)، ويُظهر نتائج تجريبية ممتازة. وبشكل خاص، نلاحظ أن MaskFormer يتفوق على النماذج القائمة على التصنيف لكل بكسل عندما يكون عدد الفئات كبيرًا. ويتفوق أسلوبنا القائم على تصنيف القناع على كلا النموذجين الرائدين الحاليين في التجزئة الدلالية (55.6 mIoU على ADE20K) والتجزئة الشاملة (52.7 PQ على COCO).