CMT-DeepLab: تجميع تحويلات الأقنعة للفصل الشامل

نُقدّم إطار عمل Clustering Mask Transformer (CMT-DeepLab)، وهو إطار مبني على المحولات (transformer) للتصنيف الشامل (panoptic segmentation)، مصمم حول مفهوم التجميع (clustering). يعيد هذا الإطار النظر في الهياكل الحالية للمحولات المستخدمة في التصنيف والكشف عن الكائنات، حيث يُعامل استفسارات الكائن (object queries) كمراكز تجميع، والتي تقوم بدور تجميع البكسلات عند تطبيقها على المهمة التصنيفية. يتم حساب التجميع من خلال عملية متكررة، تبدأ بتعيين البكسلات إلى المجموعات بناءً على تشابه خصائصها، ثم تحديث مراكز المجموعات وخصائص البكسلات. معًا، تشكّل هذه العمليات طبقة Clustering Mask Transformer (CMT)، التي تُنتج انتباهًا متقاطعًا (cross-attention) أكثر كثافة وتماشيًا مع المهمة النهائية للتصنيف. يُحسّن CMT-DeepLab الأداء بشكل كبير مقارنة بالأساليب السابقة بنسبة 4.4% في مؤشر PQ، محققًا حالة جديدة من التميز بتحقيق 55.7% PQ على مجموعة اختبار COCO test-dev.