Transformer يلتقي بالتفتيش: شبكة وعي ثنائية للفصل الدلالي لصور المشاهد الحضرية ذات الدقة العالية جدًا

تلعب التجزئة الدلالية من صور المشهد الحضري ذات الدقة الشديدة (VFR) دورًا مهمًا في عدة سياقات تطبيقية تشمل القيادة الذاتية، وتصنيف تغطية الأرض، والتخطيط الحضري، وغيرها. ومع ذلك، فإن التفاصيل الهائلة المحتوية في صور VFR، وخاصة التغيرات الكبيرة في الحجم والملامح للكائنات، تحد بشكل كبير من إمكانات النماذج الحالية القائمة على التعلم العميق. يُعد معالجة هذه المشكلات مجالًا بحثيًا واعدًا في مجتمع الاستشعار عن بعد، مما يمهد الطريق لتحليل الأنماط الحضارية على مستوى المشهد واتخاذ القرارات. في هذا البحث، نقترح شبكة ذات وعي ثنائي (Bilateral Awareness Network - BANet) تتضمن مسارًا للارتباط ومخططًا للنسيج، بهدف التقاط العلاقات طويلة المدى والتفاصيل الدقيقة في صور VFR بشكل شامل. بشكل خاص، يتم تنفيذ المسار الارتباطي بناءً على ResT، وهو هيكل أساسي من نوع Transformer جديد يتميز باهتمام ذاتي متعدد الرؤوس بكفاءة في استخدام الذاكرة، بينما يُبنى المسار النسيجي على عمليات التوافيق المتتالية (stacked convolution). علاوةً على ذلك، تم تصميم وحدة تجميع الميزات باستخدام آلية الانتباه الخطي، بهدف دمج الميزات الارتباطية والنسجية بشكل فعّال. أظهرت التجارب الواسعة التي أُجريت على ثلاث مجموعات بيانات كبيرة لتجزئة صور المشهد الحضري، وهي: مجموعة بيانات ISPRS Vaihingen، ومجموعة بيانات ISPRS Potsdam، ومجموعة بيانات UAVid، فعالية نموذج BANet. وتحديدًا، تم تحقيق مؤشر متوسط دقة التداخل (mIoU) بنسبة 64.6% على مجموعة بيانات UAVid. يُمكن الاطلاع على الكود المصدر من خلال الرابط التالي: https://github.com/WangLibo1995/GeoSeg.