HyperAIHyperAI
منذ 11 أيام

MTANet: شبكة تُراعي المهام المتعددة مع دمج متعدد المستويات متعدد الوسائط لفهم المشهد الحضري باللونين RGB-T

{Lu Yu, Jingsheng Lei, Shaohua Dong, WuJie Zhou}
الملخص

فهم المشاهد الحضرية يعد متطلباً أساسياً للقيادة المساعدة والمركبات ذاتية القيادة. تستخدم معظم الطرق المتاحة لفهم المشاهد الحضرية صوراً ملونة مكونة من قنوات الأحمر والأخضر والأزرق (RGB)؛ ومع ذلك، فإن أداء تجزئة هذه الصور يتأثر سلباً في الظروف الضوئية غير المثالية. في الآونة الأخيرة، تم تقديم العديد من الشبكات العصبية الاصطناعية الفعالة لفهم المشاهد الحضرية، وأظهرت هذه الشبكات أن دمج الصور RGB والصور الحرارية (RGB-T) يمكن أن يحسن دقة التجزئة حتى في ظروف إضاءة غير مرضية. ومع ذلك، لم يتم استغلال الإمكانات الكاملة لدمج الميزات متعددة الوسائط، نظراً لأن العمليات البسيطة مثل تسلسل ميزات RGB والحرارية أو توليد متوسط خرائطها تم استخدامها بشكل شائع. لتحسين دمج الميزات متعددة الوسائط وزيادة دقة التجزئة، نقترح شبكة متعددة المهام مُعتمدة على التفاعل الهرمي (MTANet) مع دمج متعدد الوسائط هرمي (استراتيجية دمج متعددة المقاييس) لفهم المشاهد الحضرية باستخدام RGB-T. تم تطوير وحدة دمج متعدد الوسائط هرمية لتعزيز دمج الميزات، كما تم بناء وحدة ذات معنى عالي لاستخلاص المعلومات الدلالية ودمجها مع الميزات الخشنة على مستويات مختلفة من الاستخلاص. وباستخدام وحدة الدمج متعددة المستويات، استخدمنا دمج المستويات المنخفضة والمتوسطة والمرتفعة لتحسين دقة التجزئة. تعتمد الوحدة متعددة المهام على إشراف حدودي، ثنائي، ودالي لتحسين معاملات الشبكة MTANet. أُجريت تجارب واسعة على مجموعتي بيانات معيار RGB-T لتأكيد تفوق الأداء المُقترح لشبكة MTANet مقارنة بالطرق المتطورة حالياً.

MTANet: شبكة تُراعي المهام المتعددة مع دمج متعدد المستويات متعدد الوسائط لفهم المشهد الحضري باللونين RGB-T | أحدث الأوراق البحثية | HyperAI