SegNeXt: إعادة النظر في تصميم الانتباه المتشابك للتمييز الدلالي

نقدم SegNeXt، وهي بنية شبكة تلافيفية بسيطة للتقسيم الدلالي. لقد سيطرت النماذج المستندة إلى المتحولات (transformers) مؤخرًا على مجال التقسيم الدلالي بسبب كفاءة الانتباه الذاتي في ترميز المعلومات المكانية. في هذا البحث، نوضح أن الانتباه التلافيفي هو طريقة أكثر كفاءة وفعالية لترميز المعلومات السياقية مقارنة بآلية الانتباه الذاتي في المتحولات. من خلال إعادة فحص الخصائص التي تتميز بها النماذج الناجحة للتقسيم، اكتشفنا عدة مكونات رئيسية أدت إلى تحسين أداء نماذج التقسيم. هذا يحفزنا على تصميم شبكة انتباه تلافيفية جديدة تعتمد على عمليات التلافيف الرخيصة. بدون أي تعقيدات إضافية، يحسن SegNeXt بشكل كبير من أداء الأساليب السابقة الرائدة في المجال على مقاييس شائعة مثل ADE20K وCityscapes وCOCO-Stuff وPascal VOC وPascal Context وiSAID. وبشكل لافت للنظر، يتفوق SegNeXt على EfficientNet-L2 مع NAS-FPN ويحقق نسبة mIoU قدرها 90.6% على قائمة الاختبار الخاصة بـ Pascal VOC 2012 باستخدام فقط جزء من العاشر من عدد المعلمات الموجودة فيه. بمتوسط، يحقق SegNeXt تحسينات بنسبة حوالي 2.0% في mIoU مقارنة بالأساليب الرائدة في المجال على مجموعات بيانات ADE20K بنفس أو أقل الحسابات. يمكن الوصول إلى الكود عبر الرابطين: https://github.com/uyzhang/JSeg (Jittor) و https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).