GAMUS: معيار متعدد الأبعاد يراعي الهندسة للفصل الدلالي في بيانات الاستشعار عن بعد

المعلومات الهندسية في النماذج السطحية الرقمية المُعدّلة (nDSM) مرتبطة ارتباطًا وثيقًا بالفئة الدلالية لتغطية الأرض. يمتلك دمج نوعين من الوسائط (RGB وnDSM (الارتفاع)) إمكانات كبيرة لتحسين أداء التجزئة. ومع ذلك، لا يزال هذا المجال غير مستكشف بشكل كافٍ في مجال الاستشعار عن بعد بسبب التحديات التالية. أولاً، حجم المجموعات البيانات الحالية نسبيًا صغير، وتنوعها المحدود يحد من قدرة التحقق. ثانيًا، لا توجد معايير موحدة لتقييم الأداء، مما يُعقّد مقارنة فعالية النماذج المختلفة. ثالثًا، لم تُدرَس بشكل عميق طرق التجزئة الدلالية متعددة الوسائط المعقدة لبيانات الاستشعار عن بعد. لمواجهة هذه التحديات، نقدّم في هذه الورقة مجموعة بيانات معيارية جديدة للمسح عن بعد لتطبيقات التجزئة الدلالية متعددة الوسائط، بناءً على بيانات RGB-الارتفاع (RGB-H). ولإجراء تحليل عادل وشامل للطرق الحالية، تتضمن المعيارية المقترحة ما يلي: 1) مجموعة بيانات كبيرة تضم أزواجًا مُتماثلة التسجيل من الصور RGB والنماذج السطحية الرقمية المُعدّلة (nDSM) مع تسميات دلالية دقيقّة للبكسل؛ 2) تقييم شامل وتحليل للطرق الحالية لدمج الوسائط متعددة في الشبكات القائمة على التحويلات (Transformers) والشبكات التلافيفية (Convolutional Networks) في بيانات الاستشعار عن بعد. علاوةً على ذلك، نقترح وحدة جديدة وفعّالة لدمج الوسائط متعددة عبر نموذج مبني على التحويلات (TIMF)، تُحسّن أداء التجزئة الدلالية من خلال دمج ذكي على مستوى الرموز (tokens). يُمكن للبنية المُصممة أن تُحفّز الأبحاث المستقبلية في تطوير طرق جديدة لتعلم الوسائط المتعددة في بيانات الاستشعار عن بعد. وقد أجرينا تحليلات واسعة للطرق المختلفة، وقدمت النتائج التجريبية رؤى قيّمة. يمكن الوصول إلى الكود الخاص بالمعيار والأساليب الأساسية من خلال الرابط التالي: \url{https://github.com/EarthNets/RSI-MMSegmentation}.