SegFormer: تصميم بسيط وفعال للفصل الدلالي باستخدام المحولات

نقدم إطار SegFormer، وهو إطار بسيط وفعال ولكنه قوي لتحليل التصنيف الدلالي، يُوحِّد نماذج Transformers مع مُفكِّكات خفيفة الوزن تعتمد على مُتعدد الطبقات (MLP). يتميز SegFormer بخصيصتين جذابتين: 1) يتكوّن SegFormer من مشغل Encoder جديد مُنظَّم هرميًا باستخدام Transformers، ويُخرِج ميزات متعددة المقاييس. ولا يحتاج إلى ترميز مكاني (positional encoding)، وبالتالي يتجنب عملية الاستيفاء (interpolation) للرموز المكانية التي تؤدي إلى تراجع الأداء عند اختلاف دقة الاختبار عن دقة التدريب. 2) يتجنب SegFormer المُفكِّكات المعقدة. حيث يُجمِع مُفكِّك MLP المعلومات من طبقات مختلفة، مما يُمكِّن من دمج كل من الانتباه المحلي والانتباه العالمي، وبالتالي إنتاج تمثيلات قوية. نُظهر أن هذا التصميم البسيط والخفيف هو المفتاح لتحليل فعّال باستخدام Transformers. وقد قمنا بتوسيع نطاق نهجنا لتكوين سلسلة من النماذج من SegFormer-B0 إلى SegFormer-B5، والتي تحقق أداءً أفضل بكثير وكفاءة أعلى مقارنةً بالطرق السابقة. على سبيل المثال، حقق SegFormer-B4 نسبة 50.3% mIoU على مجموعة ADE20K باستخدام 64 مليون معلمة، أي بحجم يُقلّص بنسبة 5 أضعاف وبنسبة أداء أفضل بنسبة 2.2% مقارنةً بأفضل طريقة سابقة. أما أفضل نموذج لدينا، SegFormer-B5، فقد حقق 84.0% mIoU على مجموعة التحقق من Cityscapes، ويُظهر أداءً ممتازًا في المرونة الصفرية (zero-shot robustness) على Cityscapes-C. سيتم إصدار الشفرة المصدرية على: github.com/NVlabs/SegFormer.