DSAT-Net: محول الانتباه المكاني المزدوج لاستخراج المباني من الصور الجوية
يُعدّ كل من الاعتماد على السياق المحلي والاعتماد على السياق العالمي ضروريين لاستخراج المباني من صور الاستشعار عن بعد (RS). تمتلك الشبكات العصبية التلافيفية (CNN) القدرة الجيدة على استخراج التفاصيل المكانية المحلية، لكنها تفتقر إلى القدرة على نمذجة الاعتماديات طويلة المدى. في السنوات الأخيرة، أظهرت نموذج التحويل البصري (ViT) إمكانات كبيرة في نمذجة الاعتماد على السياق العالمي. ومع ذلك، فإنها تُسهم عادةً في تكاليف حسابية كبيرة، ولا يتم الحفاظ على التفاصيل المكانية بشكل كامل أثناء عملية استخراج الميزات. ولتحقيق أقصى استفادة من مزايا الشبكات العصبية التلافيفية ونموذج التحويل البصري، نقترح نموذج DSAT-Net الذي يدمج كلا النموذجين ضمن نموذج واحد. في DSAT-Net، صممنا مُحولًا فعّالًا يُسمى Dual Spatial Attention Transformer (DSAFormer) لمعالجة عيوب نموذج ViT القياسي. ويتميز هذا المحول ببنية انتباه مزدوجة تكمل كل منهما الأخرى: حيث تقوم المسار المُنتبه العالمي (GAP) بإجراء تقليل كبير في الحجم (down-sampling) على خرائط الميزات قبل حساب الانتباه الذاتي العالمي، بهدف تقليل التكلفة الحسابية. أما المسار المُنتبه المحلي (LAP)، فيستخدم التقطيع الشريطي الفعّال (stripe convolution) لإنشاء انتباه محلي، مما يخفف من فقدان المعلومات الناتج عن عملية التقليل في المسار العالمي ويُكمل التفاصيل المكانية. بالإضافة إلى ذلك، صممنا وحدة تحسين للميزات تُسمى Module لتحسين الميزات من خلال خلط القنوات (CM-FRM) لدمج الميزات من المستويات المنخفضة والمستويات العالية. حقق نموذجنا نتائج تنافسية على ثلاث مجموعات بيانات عامة لاستخراج المباني. وسيتم توفير الكود على الرابط التالي: https://github.com/stdcoutzrh/BuildingExtraction.