Panoptic SegFormer: التعمق أكثر في التجزئة الشاملة باستخدام المحولات

يُعد التجزئة الشاملة (Panoptic segmentation) مزيجًا من التجزئة الدلالية (semantic segmentation) والتجزئة الفردية (instance segmentation)، حيث يتم تقسيم محتويات الصورة إلى نوعين: الأشياء (things) والمواد (stuff). نقدم نموذج "Panoptic SegFormer"، وهو إطار عام لتجزئة شاملة يستخدم نماذج التحويل (transformers). يتضمن هذا النموذج ثلاث مكونات مبتكرة: فكودر قنوات التجزئة الفعّال والمعزز بالتدريس العميق، واستراتيجية فصل الاستفسارات (query decoupling)، وطريقة محسّنة للمعالجة ما بعدية. كما نستخدم Deformable DETR لمعالجة خصائص متعددة المقاييس بكفاءة، وهي نسخة سريعة وفعّالة من نموذج DETR. وبشكل خاص، نُدرّس وحدات الانتباه في فكودر التجزئة بطريقة طبقية (layer-wise). تُمكّن هذه الاستراتيجية للإشراف العميق وحدات الانتباه من التركيز بسرعة على المناطق الدلالية ذات المعنى، مما يُحسّن الأداء ويقلل عدد الدورات التدريبية المطلوبة إلى النصف مقارنةً بنموذج Deformable DETR. تُفصّل استراتيجية فصل الاستفسارات مسؤوليات مجموعة الاستفسارات، وتحمي من التداخل المتبادل بين الأشياء والمواد. علاوةً على ذلك، تُحسّن استراتيجيتنا للمعالجة ما بعدية الأداء دون تكاليف إضافية من خلال النظر المشترك في جودة التصنيف ودقة التجزئة لحل التداخلات المتعارضة بين التجزئات. يُحقق نهجنا زيادة بنسبة 6.2% في مؤشر PQ مقارنةً بالنموذج الأساسي DETR. ويُحقق Panoptic SegFormer أفضل النتائج الحالية على مجموعة بيانات COCO test-dev بـ 56.2% PQ، كما يُظهر مقاومة أقوى في المهام ذات النموذج الصفر (zero-shot) مقارنةً بالطرق الحالية. تم إتاحة الشفرة المصدرية على الرابط: \url{https://github.com/zhiqi-li/Panoptic-SegFormer}.