HyperAIHyperAI
منذ 17 أيام

MaskConver: إعادة النظر في نموذج الت convolution النقي للتحليل الشامل

Abdullah Rashwan, Jiageng Zhang, Ali Taalimi, Fan Yang, Xingyi Zhou, Chaochao Yan, Liang-Chieh Chen, Yeqing Li
MaskConver: إعادة النظر في نموذج الت convolution النقي للتحليل الشامل
الملخص

في السنوات الأخيرة، احتلت النماذج المستندة إلى المُحَوِّل (Transformer) المكانة الريادية في مهام التجزئة الشاملة (panoptic segmentation)، بفضل قدرتها القوية على النمذجة وتمثيلها الموحّد للتصنيفات المعنى (semantic) والكائنات الفردية (instance) من خلال أقنعة ثنائية على مستوى العالم. في هذه الورقة، نعيد النظر في النماذج البحتة القائمة على التحويل (convolution)، ونُقدّم معمارية شاملة جديدة تُسمى MaskConver. تُقترح MaskConver توحيدًا كاملاً لتمثيل الكائنات (things) والمواد (stuff) من خلال التنبؤ بمركزيها. وبهدف تحقيق ذلك، تم تطوير وحدة تضمين فئة خفيفة الوزن يمكنها التمييز بين حالات تداخل عدة مراكز في نفس الموقع. علاوةً على ذلك، تُظهر دراستنا أن تصميم المُفكّك (decoder) يُعدّ أمرًا بالغ الأهمية لضمان توفر النموذج بيئة سياقية كافية للكشف الدقيق والتقسيم الدقيق. ولذلك، نقدّم مُفكّكًا قويًا يعتمد على معمارية ConvNeXt-UNet، والذي يُقلّص الفجوة في الأداء بين النماذج القائمة على التحويل والنموذج القائم على التحويل (transformer-based). وباستخدام نموذج مُستمدّ من ResNet50 كنواة (backbone)، تحقق MaskConver نسبة 53.6% في معيار PQ على مجموعة التحقق من COCO، متفوّقةً على النموذج الحديث القائم على التحويل، Panoptic FCN، بنسبة 9.3%، كما تتفوّق على نماذج قائمة على المُحَوِّل مثل Mask2Former (+1.7% PQ) وkMaX-DeepLab (+0.6% PQ). وبالإضافة إلى ذلك، تُظهر MaskConver التي تستخدم نواة MobileNet نسبة 37.2% PQ، متفوّقةً على Panoptic-DeepLab بنسبة +6.4% تحت نفس القيود المفروضة على عدد العمليات الحسابية (FLOPs) والتأخير (latency). وتم تحسين نسخة مُطوّرة من MaskConver لتُحقق نسبة 29.7% PQ، مع تشغيلها في الزمن الفعلي على الأجهزة المحمولة. وسيتم إتاحة الكود وأوزان النموذج للجمهور بشكل عام.