HyperAIHyperAI
منذ 17 أيام

مخطط جديد يعتمد على Transformer للفصل الدلالي للصور الاستشعار عن بعد ذات الدقة العالية

Libo Wang, Rui Li, Chenxi Duan, Ce Zhang, Xiaoliang Meng, Shenghui Fang
مخطط جديد يعتمد على Transformer للفصل الدلالي للصور الاستشعار عن بعد ذات الدقة العالية
الملخص

تمتلك الشبكة التلافيفية الكاملة (FCN) ذات البنية المُشفّرة-المُفكّكة المعيار القياسي للفصل الدلالي. تعتمد البنية المُشفّرة-المُفكّكة على وحدة تشفير لالتقاط خرائط الميزات متعددة المستويات، والتي تُدمج في التنبؤ النهائي عبر وحدة تفكيك. وبما أن السياق يُعدّ عنصراً حاسماً للتصنيف الدقيق، فقد بُذلت جهود كبيرة لاستخلاص هذه المعلومات بطريقة ذكية، بما في ذلك استخدام التلافيف الموسعة (dilated/atrous convolutions) أو إدراج وحدات الانتباه. ومع ذلك، فإن جميع هذه الجهود تعتمد على بنية FCN مع مُشَفّرات مثل ResNet أو غيرها، والتي لا تستطيع استغلال السياق بالكامل من الناحية النظرية. في المقابل، نقدّم استخدام مُشَفّر Swin Transformer كأساس لاستخراج معلومات السياق، ونُصمم وحدة تفكيك جديدة تُعرف بـ "وحدة تجميع الميزات المتصلة كثيفاً" (DCFAM)، والتي تهدف إلى استعادة الدقة المكانية وإنتاج خريطة التصنيف. أظهرت النتائج التجريبية على مجموعتي بيانات للفصل الدلالي المستند إلى الصور الفضائية فعالية الخطة المقترحة. يمكن الوصول إلى الكود من خلال الرابط التالي: https://github.com/WangLibo1995/GeoSeg

مخطط جديد يعتمد على Transformer للفصل الدلالي للصور الاستشعار عن بعد ذات الدقة العالية | أحدث الأوراق البحثية | HyperAI