SERNet-Former: تقسيم الدلالة باستخدام شبكة باقية فعّالة مع بوابات تعزيز الانتباه وشبكات دمج الانتباه

تحسين كفاءة أحدث الطرق في تقسيم المعنى (السماح بتقسيم الصور إلى مناطق ذات معنى محدد) يتطلب التغلب على التكلفة الحاسوبية المتزايدة بالإضافة إلى المشكلات مثل دمج المعلومات الدلالية من السياقات العالمية والمحلية. استنادًا إلى النجاحات الحديثة والتحديات التي تواجهها شبكات العصبونات المتشابكة (CNNs) في تقسيم المعنى، تقدم هذه الدراسة هندسة مُشفر-مُفكك (Encoder-Decoder) مع شبكة باقية فعالة فريدة من نوعها، وهي الشبكة الباقية الفعالة (Efficient-ResNet). يتم نشر بوابات تعزيز الانتباه (AbGs) ووحدات تعزيز الانتباه (AbMs) بهدف دمج المعلومات الدلالية المتكافئة والمبنية على الخصائص بحجم مكافئ لخرج السياق العالمي للشبكة الباقية الفعالة في الجزء المشفر. فيما يتعلق بالجزء المفكك، تم تطوير الشبكة المفككة بإضافة شبكات دمج الانتباه (AfNs) المستوحاة من AbM. صُممت AfNs لتحسين الكفاءة في تحويل المعلومات الدلالية بنسبة واحد إلى واحد من خلال إضافة طبقات تشبيك إضافية في الجزء المفكك. تم اختبار شبكتنا على مجموعتي البيانات الصعبتين CamVid وCityscapes، وكشفت الأساليب المقترحة عن تحسينات كبيرة في الشبكات الباقية. حسب أفضل علم لنا، حققت الشبكة المطورة، SERNet-Former، نتائجًا رائدة (84.62% IoU متوسطة) على مجموعة بيانات CamVid ونتائجًا صعبة (87.35% IoU متوسطة) على مجموعة التحقق من صحة Cityscapes.