LMFNet: نهج فعّال للدمج متعدد الوسائط للتحليل المعنوي للصورة في الاستشعار عن بعد عالي الدقة

رغم التطور السريع لتصنيف التغطية الأرضية باستخدام التجزئة الدلالية في الصور الفضائية عالية الدقة، لا يزال دمج وحدات بيانات متعددة مثل نموذج السطح الرقمي (DSM) والصور الملونة (RGB) والأشعة تحت الحمراء القريبة (NIR) يشكل تحديًا. غالبًا ما تتعامل الطرق الحالية فقط مع نوعين من البيانات، مما يؤدي إلى فقدان المعلومات الغنية التي يمكن أن تقدمها وحدات بيانات إضافية. ولسد هذه الفجوة، نقترح شبكة جديدة تُسمى \textbf{L}ightweight \textbf{M}ultimodal data \textbf{F}usion \textbf{Net} (LMFNet)، المصممة لأداء مهام دمج البيانات وتصنيف التجزئة الدلالية للصور الفضائية متعددة الوحدات. تتميز LMFNet بقدرتها الفريدة على معالجة أنواع متعددة من البيانات في آنٍ واحد، بما في ذلك RGB وNirRG وDSM، من خلال نموذج محول بصرية متفرع متعدد مع مشاركة الأوزان، مما يقلل من عدد المعاملات مع الحفاظ على سلامة استخلاص الميزات. يدمج الوحدة المقترحة لدمج البيانات متعددة الوحدات طبقة إعادة بناء الميزات متعددة الوحدات وطبقة انتباه ذاتي لدمج الميزات متعددة الوحدات، مما يمكّن من إعادة بناء ودمج الميزات المتعددة الوحدات. أظهرت الاختبارات الواسعة على مجموعات بيانات عامة مثل US3D وISPRS Potsdam وISPRS Vaihingen فعالية LMFNet. وبشكل خاص، حققت LMFNet متوسط تقاطع على الوحدة (mIoU) بلغ 85.09٪ على مجموعة بيانات US3D، مما يمثل تحسنًا كبيرًا مقارنة بالطرق الحالية. مقارنة بالطرق الأحادية الوحدة، تُظهر LMFNet تحسينًا بنسبة 10٪ في mIoU مع زيادة بسيطة في عدد المعاملات بلغت 0.5 مليون فقط. علاوة على ذلك، مقارنة بالطرق ثنائية الوحدات، تحقق منهجيتنا باستخدام مدخلات ثلاثية الوحدات تحسنًا في mIoU بنسبة 0.46 نقطة مئوية.