بانوبيتيك-ديبلايب: أساس بسيط وقوي وسريع لتقسيم البانوبيتيك من الأسفل إلى الأعلى

في هذه الدراسة، نقدّم "بانوبيتك-ديبلايب" (Panoptic-DeepLab)، وهو نظام بسيط وقوي وسريع لتحليل البانوبيتك (panoptic segmentation)، بهدف إرساء قاعدة معيارية قوية للطرق ذات النهج السفلي (bottom-up) التي تحقق أداءً مماثلاً للطرق ذات النهج المزدوج (two-stage)، مع تحقيق سرعة عالية في الاستدلال. وبشكل خاص، يعتمد "بانوبيتك-ديبلايب" على هيكلين خاصين: هيكل ASPP المزدوج (dual-ASPP) والهيكل التفكيكي المزدوج (dual-decoder)، حيث يُستخدم الهيكل الأول في المهام المتعلقة بالتصنيف الدلالي (semantic segmentation)، والثاني في المهام المتعلقة بالتصنيف الفردي (instance segmentation). ويتبع فرع التصنيف الدلالي التصميم النموذجي لأي نموذج تصنيف دلالي (مثل DeepLab)، بينما يعتمد فرع التصنيف الفردي على نموذج غير مُصنّف حسب الفئة (class-agnostic)، ويستخدم تنبؤًا بسيطًا بمركز الكائنات (instance center regression). وبنتيجة ذلك، يُصنّف نموذج "بانوبيتك-ديبلايب" الوحيد في المراكز الأولى في جميع معايير مدينة سيتيسكيب (Cityscapes)، ويحقق أداءً جديدًا على مستوى الحالة الراهنة (state-of-the-art) بـ 84.2% mIoU، و39.0% AP، و65.5% PQ على مجموعة الاختبار. بالإضافة إلى ذلك، عند تجهيزه بـ MobileNetV3، يعمل "بانوبيتك-ديبلايب" تقريبًا في الزمن الفعلي (real-time) عند معالجة صورة واحدة بحجم 1025x2049 (بمعدل 15.8 إطارًا في الثانية)، مع تحقيق أداءً تنافسيًا على مدينة سيتيسكيب (54.1% PQ على مجموعة الاختبار). وعلى مجموعة بيانات Mapillary Vistas، حقق مجموع نماذجنا الستة أداءً بنسبة 42.7% PQ، متفوّقًا على الفائز في المسابقة عام 2018 بفارق ملحوظ قدره 1.5%. وأخيرًا، يُظهر "بانوبيتك-ديبلايب" أداءً مماثلًا لعدة نماذج ذات النهج العلوي (top-down) على مجموعة بيانات الصعبة COCO. ولأول مرة، نُثبت أن النهج السفلي يمكنه تحقيق نتائج متميزة على مستوى الحالة الراهنة في مجال تحليل البانوبيتك.