الملخص

في السنوات الأخيرة، احتلت النماذج المستندة إلى المُحَوِّل (Transformer) المكانة الريادية في مهام التجزئة الشاملة (panoptic segmentation)، بفضل قدرتها القوية على النمذجة وتمثيلها الموحّد للتصنيفات المعنى (semantic) والكائنات الفردية (instance) من خلال أقنعة ثنائية على مستوى العالم. في هذه الورقة، نعيد النظر في النماذج البحتة القائمة على التحويل (convolution)، ونُقدّم معمارية شاملة جديدة تُسمى MaskConver. تُقترح MaskConver توحيدًا كاملاً لتمثيل الكائنات (things) والمواد (stuff) من خلال التنبؤ بمركزيها. وبهدف تحقيق ذلك، تم تطوير وحدة تضمين فئة خفيفة الوزن يمكنها التمييز بين حالات تداخل عدة مراكز في نفس الموقع. علاوةً على ذلك، تُظهر دراستنا أن تصميم المُفكّك (decoder) يُعدّ أمرًا بالغ الأهمية لضمان توفر النموذج بيئة سياقية كافية للكشف الدقيق والتقسيم الدقيق. ولذلك، نقدّم مُفكّكًا قويًا يعتمد على معمارية ConvNeXt-UNet، والذي يُقلّص الفجوة في الأداء بين النماذج القائمة على التحويل والنموذج القائم على التحويل (transformer-based). وباستخدام نموذج مُستمدّ من ResNet50 كنواة (backbone)، تحقق MaskConver نسبة 53.6% في معيار PQ على مجموعة التحقق من COCO، متفوّقةً على النموذج الحديث القائم على التحويل، Panoptic FCN، بنسبة 9.3%، كما تتفوّق على نماذج قائمة على المُحَوِّل مثل Mask2Former (+1.7% PQ) وkMaX-DeepLab (+0.6% PQ). وبالإضافة إلى ذلك، تُظهر MaskConver التي تستخدم نواة MobileNet نسبة 37.2% PQ، متفوّقةً على Panoptic-DeepLab بنسبة +6.4% تحت نفس القيود المفروضة على عدد العمليات الحسابية (FLOPs) والتأخير (latency). وتم تحسين نسخة مُطوّرة من MaskConver لتُحقق نسبة 29.7% PQ، مع تشغيلها في الزمن الفعلي على الأجهزة المحمولة. وسيتم إتاحة الكود وأوزان النموذج للجمهور بشكل عام.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

MaskConver: إعادة النظر في نموذج الت convolution النقي للتحليل الشامل

Abdullah Rashwan Jiageng Zhang Ali Taalimi Fan Yang Xingyi Zhou Chaochao Yan Liang-Chieh Chen Yeqing Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaskConver: إعادة النظر في نموذج الت convolution النقي للتحليل الشامل

Abdullah Rashwan Jiageng Zhang Ali Taalimi Fan Yang Xingyi Zhou Chaochao Yan Liang-Chieh Chen Yeqing Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

MaskConver: إعادة النظر في نموذج الت convolution النقي للتحليل الشامل

Abdullah Rashwan Jiageng Zhang Ali Taalimi Fan Yang Xingyi Zhou Chaochao Yan Liang-Chieh Chen Yeqing Li

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters