التمييز البكسلاتي للحالات مع شبكة مُنشَأة ديناميكياً

حققت أبحاث التجزئة الدلالية (semantic segmentation) وتحديد الكائنات (object detection) تقدماً سريعاً في الآونة الأخيرة. ومع ذلك، فإن المهمة الأولى لا تمتلك مفهومًا للحالات المختلفة لنفس الكائن، بينما تعمل الثانية على مستوى خشن، باستخدام صناديق الحدود (bounding-box). نقترح نظام تجزئة الحالات (Instance Segmentation) الذي ينتج خريطة تجزئة حيث يتم تعيين كل بكسل بتصنيف كائن وهوية حالة. تعتمد معظم النهج على تعديل محددات الكائنات لإنتاج قطع بدلاً من الصناديق. بالمقابل، يستند أسلوبنا إلى وحدة تجزئة دلالية أولية، والتي تتغذى فيها شبكة الحالة الفردية. تستفيد هذه الشبكة من التجزئة الأولية على مستوى التصنيف، بالإضافة إلى الإشارات من إخراج محدد الكائنات، ضمن CRF شامل من البداية إلى النهاية لتنبؤ الحالات. يتم تنفيذ جزء من نموذجنا هذا بشكل ديناميكي لإنتاج عدد متغير من الحالات لكل صورة. يتطلب نهجنا الشامل من البداية إلى النهاية عدم وجود معالجة ما بعد الإخراج ويأخذ الصورة ككل، بدلاً من معالجة مقترحات مستقلة. لذلك، على عكس بعض الأعمال ذات الصلة، لا يمكن أن ينتمي البكسل إلى حالات متعددة. بالإضافة إلى ذلك، يتم تحقيق تقسيمات أكثر دقة بكثير كما تظهر نتائجنا الرائدة في المجال (خاصة عند حدود IoU العالية) على مجموعتي بيانات Pascal VOC وCityscapes.