HyperAIHyperAI
منذ 11 أيام

UNetFormer: نموذج مشابه UNet يعتمد على Transformer للفصل الدلالي الفعّال للصور الريحية الحضرية المستندة إلى الاستشعار عن بعد

Libo Wang, Rui Li, Ce Zhang, Shenghui Fang, Chenxi Duan, Xiaoliang Meng, Peter M. Atkinson
UNetFormer: نموذج مشابه UNet يعتمد على Transformer للفصل الدلالي الفعّال للصور الريحية الحضرية المستندة إلى الاستشعار عن بعد
الملخص

يُعدّ التصنيف الدلالي للصور المأخوذة من مسافات بعيدة لمشاهد حضرية ضروريًا في مجموعة واسعة من التطبيقات العملية، مثل رسم خرائط التغطية الأرضية، وكشف التغيرات الحضرية، وحماية البيئة، والتقييم الاقتصادي. وقد ساهم التطور السريع في تقنيات التعلم العميق في جعل الشبكة العصبية التلافيفية (CNN) تهيمن على التصنيف الدلالي لسنوات عديدة. تعتمد CNN على تمثيل البنى الهرمية، وتُظهر قدرات قوية في استخراج المعلومات المحلية. ومع ذلك، فإن الطبيعة المحلية لطبقة التلافيف تحد من قدرة الشبكة على التقاط السياق العالمي. في الآونة الأخيرة، وبصفتها موضوعًا رئيسيًا في مجال الرؤية الحاسوبية، أظهرت نموذج "Transformer" إمكاناته الكبيرة في نمذجة المعلومات العالمية، مما ساهم في تحسين العديد من المهام المرتبطة بالرؤية الحاسوبية مثل تصنيف الصور، وكشف الكائنات، وبشكل خاص التصنيف الدلالي. في هذا البحث، نقترح مُفكّكًا مبنيًا على Transformer، ونُنشئ نموذجًا يشبه معمارية UNet يُسمى UNetFormer، مُصممًا للتصنيف الفوري للمناظر الحضرية. ولتحقيق تجزئة فعّالة، يختار UNetFormer مُشغّلًا خفيفًا (ResNet18) كمُشغّل (encoder)، ويطوّر آلية انتباه فعّالة تجمع بين المعلومات العالمية والمحلية في المُفكّك (decoder). أظهرت التجارب الواسعة أن طريقةنا لا تُحقق أداءً أسرع فحسب، بل أيضًا دقة أعلى مقارنةً بالنماذج الخفيفة الأفضل في مجالها. وبشكل محدد، حقق UNetFormer تقييمًا بنسبة 67.8% و52.4% من متوسط مؤشر التداخل بين التوقعات والواقع (mIoU) على مجموعتي بيانات UAVid وLoveDA على التوالي، بينما تصل سرعة التنبؤ إلى 322.4 إطارًا في الثانية (FPS) باستخدام مدخل بحجم 512×512 على وحدة معالجة رسومية واحدة NVIDIA GTX 3090. وفي تجارب إضافية، حقق المُفكّك القائم على Transformer، عند دمجه مع مُشغّل Swin Transformer، نتيجة متميزة على مستوى الدولة (F1 = 91.3% وmIoU = 84.1%) على مجموعة بيانات Vaihingen. وستكون الشفرة المصدرية متاحة مجانًا عبر الرابط: https://github.com/WangLibo1995/GeoSeg.

UNetFormer: نموذج مشابه UNet يعتمد على Transformer للفصل الدلالي الفعّال للصور الريحية الحضرية المستندة إلى الاستشعار عن بعد | أحدث الأوراق البحثية | HyperAI