CACFNet: شبكة تجميع متسلسلة للانتباه بين الوسائط المتقاطعة لتحليل المشاهد الحضرية RGB-T
لقد لاقت معالجة المشاهد الحضرية بلون-حرارة (RGB-T) اهتمامًا واسع النطاق مؤخرًا. ومع ذلك، فإن معظم الطرق الحالية لمعالجة المشاهد الحضرية RGB-T لا تستكشف بشكل عميق التكميلية المعلوماتية بين ميزات RGB-T. في هذه الدراسة، نقترح شبكة تجميع متعددة الأنواع ذات انتباه متبادل متسلسل (CACFNet) التي تستغل التكميلية بين الأنواع بشكل كامل. في تصميمنا، يُستخرج وحدة تجميع الانتباه المتبادل معلومات مكملة من نوعين مختلفين من البيانات. ثم، تقوم وحدة التجميع المتسلسل بفك تشفير الميزات متعددة المستويات بطريقة من الأسفل إلى الأعلى. ونلاحظ أن كل بكسل يتم تعيينه بفئة المنطقة التي ينتمي إليها، حيث نقدم وحدة قائمة على المنطقة لاستكشاف العلاقة بين البكسل والمنطقة. علاوة على ذلك، على عكس الطرق السابقة التي تستخدم فقط خسارة الانتروبيا المتقاطعة لمعاقبة التنبؤات على مستوى البكسل، نقترح خسارة إضافية لتعلم العلاقات بين البكسلات. أظهرت التجارب الواسعة على مجموعتي بيانات أن الشبكة المقترحة CACFNet تحقق أداءً من الدرجة الأولى في معالجة المشاهد الحضرية RGB-T.