HyperAIHyperAI
منذ 17 أيام

التسمية الدلالية للصور عالية الدقة باستخدام EfficientUNets والمحولات

Hasan AlMarzouqi, Lyes Saad Saoud
التسمية الدلالية للصور عالية الدقة باستخدام EfficientUNets والمحولات
الملخص

تتطلب التصنيف الدلالي نُهجًا تتعلم الخصائص عالية المستوى مع التعامل مع كميات هائلة من البيانات. يمكن لشبكات التعلم التلافيفية (CNNs) تعلُّم ميزات فريدة ومتعددة التكيف لتحقيق هذا الهدف. ومع ذلك، نظرًا لحجم الصور الاستشعار عن بعد الكبير ودقتها الفضائية العالية، لا يمكن لهذه الشبكات تحليل مشهد كامل بكفاءة. في الآونة الأخيرة، أثبتت المحولات العميقة (deep transformers) قدرتها على تسجيل التفاعلات العالمية بين الكائنات المختلفة في الصورة. في هذه الورقة، نقترح نموذجًا جديدًا للتصنيف يجمع بين الشبكات التلافيفية والمحولات، ونُظهر أن هذا المزيج بين تقنيات استخلاص الميزات المحلية والعالمية يوفر مزايا كبيرة في مجال تصنيف الصور الاستشعار عن بعد. بالإضافة إلى ذلك، يحتوي النموذج المقترح على طبقتين دمج تم تصميمهما لتمثيل مدخلات متعددة الأنواع ونواتج الشبكة بشكل فعّال. تُستخرج الطبقة الأولى للدمج خرائط ميزات تلخص العلاقة بين محتوى الصورة وخرائط الارتفاع (DSM). أما الطبقة الثانية للدمج، فتستخدم استراتيجية تجزئة متعددة المهام جديدة، حيث يتم تحديد العلامات الفئوية باستخدام طبقات استخلاص ميزات مخصصة لكل فئة ووظائف خسارة مخصصة. وأخيرًا، تُستخدم طريقة "الانطلاق السريع" (fast-marching) لتحويل جميع العلامات غير المحددة إلى أقرب جيران معروفين لها. تُظهر النتائج أن المنهجية المقترحة تُحسّن دقة التصنيف مقارنةً بالتقنيات الرائدة في مجالها.

التسمية الدلالية للصور عالية الدقة باستخدام EfficientUNets والمحولات | أحدث الأوراق البحثية | HyperAI