M$^3$Net: شبكة الانتباه متعددة المستويات والمختلطة والمرحلية لاكتشاف الأشياء المميزة

معظم طرق الكشف عن الأشياء البارزة الحالية تعتمد بشكل أساسي على شبكة U-Net أو هيكل الهرم المميز، مما يؤدي إلى تجميع بسيط لخرائط الميزات بمختلف المقاييس، مع تجاهل الفريدية والارتباط بينها ومساهمتها الفردية في التنبؤ النهائي. لتجاوز هذه المشكلات، نقترح M$^3$Net، أي شبكة الانتباه متعددة المستويات والمختلطة والمراحل (Multilevel, Mixed and Multistage attention network) للكشف عن الأشياء البارزة (SOD). أولاً، نقترح كتلة التفاعل المتعدد المقاييس التي تقدم بطريقة مبتكرة نهج الانتباه المتقاطع لتحقيق التفاعل بين الميزات متعددة المستويات، مما يسمح للميزات عالية المستوى بإرشاد تعلم الميزات منخفضة المستوى وبالتالي تعزيز المناطق البارزة. ثانياً، بالنظر إلى حقيقة أن طرق SOD القائمة على الشبكات العصبية التحويلية (Transformer) السابقة تحدد المناطق البارزة باستخدام انتباه الذات العالمي فقط بينما لا مفر من إغفال تفاصيل الأشياء المعقدة، نقترح كتلة الانتباه المختلطة. هذه الكتلة تجمع بين انتباه الذات العالمي وانتباه الذات النافذة، بهدف نمذجة السياق على مستويين عالمي وموضعي لتحسين دقة خريطة التنبؤ. أخيرًا، اقترحت استراتيجية الإشراف متعددة المستويات لتحسين مرحلة تجميع الميزات خطوة بخطوة. أظهرت التجارب على ستة مجموعات بيانات صعبة أن M$^3$Net المقترحة تتخطى أحدث فنون SOD القائمة على CNN والشبكات العصبية التحويلية (Transformer) من حيث أربع مقاييس. يمكن الوصول إلى الرموز البرمجية عبر الرابط: https://github.com/I2-Multimedia-Lab/M3Net.