AerialFormer: محول متعدد الدقة للتحليل التصنيفي للصور الجوية

يُعد تجزئة الصور الجوية نوعًا من التجزئة الدلالية من منظور علوي، وتمتاز بعدة صعوبات، منها التوازن الضعيف في توزيع الكائنات الأمامية مقابل الخلفية، والخلفية المعقدة، وعدم التجانس الداخلي بين الفئات، والتجانس بين الفئات، والكائنات الصغيرة جدًا. ولحل هذه المشكلات، نستلهم المزايا المتميزة لشبكات التحويل (Transformers) ونُقدّم AerialFormer، التي تدمج شبكات Transformers في المسار الانكماشي مع شبكات عصبية تلافيفية خفيفة الوزن متعددة التضخيم (MD-CNNs) في المسار التوسعي. صُمّمت AerialFormer على شكل هيكل تسلسلي، حيث تُنتج وحدة التشفير Transformer ميزات متعددة المقاييس، بينما تقوم وحدة التفكيك MD-CNNs بجمع المعلومات من هذه المقاييس المتعددة. وبذلك، تأخذ AerialFormer في الاعتبار كل من السياقات المحلية والعالمية، مما يُنتج تمثيلات قوية ونتائج تجزئة عالية الدقة. وقد تم اختبار AerialFormer على ثلاث مجموعات بيانات شائعة، تشمل iSAID وLoveDA وPotsdam. وأظهرت التجارب الشاملة والدراسات التحليلية الموسعة أن AerialFormer تتفوّق على الطرق السابقة من الدرجة المتطورة بنتائج مميزة. وسيتم إتاحة كود المصدر الخاص بنا بشكل عام بعد قبول البحث.