FEANet: شبكة انتباه مُحسَّنة بالسمات للفصل الدلالي الزمني الفعلي بالصور الملونة والحرارية

تم استكشاف المعلومات الملونة (RGB) والحرارية (Thermal) (RGB-T) للفصل الدلالي بشكل واسع في السنوات الأخيرة. ومع ذلك، غالبًا ما تتنازل الطرق الحالية للفصل الدلالي RGB-T عن الدقة المكانية لتحقيق سرعة استنتاج في الوقت الفعلي، مما يؤدي إلى أداء ضعيف. ولتحسين استخلاص المعلومات المكانية التفصيلية، نقترح شبكة انتباه مُعززة بالسمات (FEANet) على مرحلتين للمهمة الخاصة بالفصل الدلالي RGB-T. وبشكل خاص، نُقدّم وحدة انتباه مُعززة بالسمات (FEAM) لاستكشاف وتعزيز السمات متعددة المستويات من منظورين: الاتجاه القنوي (channel) والاتجاه المكاني (spatial). وبفضل الوحدة المُقترحة FEAM، يمكن لشبكتنا FEANet الحفاظ على المعلومات المكانية وتركيز الانتباه بشكل أكبر على السمات عالية الدقة المستمدة من الصور المدمجة RGB-T. أظهرت التجارب الواسعة على مجموعة بيانات المشاهد الحضرية أن شبكتنا FEANet تتفوق على الطرق الحالية الأفضل (SOTA) للفصل الدلالي RGB-T من حيث مقاييس موضوعية ومقارنة بصرية ذاتية، مع تحقيق زيادة قدرها +2.6% في دقة التصنيف العالمية (mAcc) و+0.8% في متوسط مؤشر التداخل (mIoU). وبالنسبة لصور RGB-T ذات الأبعاد 480×640، يمكن لشبكتنا FEANet العمل بسرعة في الوقت الفعلي على بطاقة NVIDIA GeForce RTX 2080 Ti.