TR-MISR: تحسين دقة الصورة متعددة الصور المستند إلى دمج الميزات باستخدام المحولات
الاسترجاع الفائق للصورة متعددة الصور (MISR)، كأحد أكثر الاتجاهات واعدًا في الاستشعار عن بعد، أصبح تقنية مطلوبة بشدة في سوق الأقمار الصناعية. غالبًا ما تتضمن تسلسلات الصور التي تُجمع بواسطة الأقمار الصناعية عددًا كبيرًا من الزوايا وفترة زمنية طويلة، مما يجعل دمج عدة صور منخفضة الدقة إلى صورة واحدة عالية الدقة مع الحفاظ على التفاصيل مشكلة صعبة. ومع ذلك، فإن معظم الأساليب القائمة على التعلم العميق في مجال MISR لا تستغل بالكامل الصور المتعددة، حيث تفتقر وحدات الدمج لديها إلى القدرة على التكيف مع تسلسلات صور ذات ارتباطات زمنية ضعيفة. ولحل هذه المشكلات، نقترح إطارًا جديدًا متكاملًا من البداية إلى النهاية يُسمى TR-MISR. يتكون هذا الإطار من ثلاث مكونات رئيسية: وحدة ترميز تعتمد على كتل التمييز (residual blocks)، ووحدة دمج قائمة على نموذج الـ Transformer، ووحدة فك ترميز تعتمد على التحويل الفرعي (subpixel convolution). وبشكل خاص، من خلال إعادة ترتيب خرائط الميزات المتعددة إلى متجهات، يمكن لوحدة الدمج تعيين انتباه ديناميكي لمنطقة واحدة في صور الأقمار الصناعية المختلفة في آنٍ واحد. بالإضافة إلى ذلك، يعتمد TR-MISR على متجه تداخل قابل للتعلم إضافي، يُستخدم لدمج هذه المتجهات وإعادة استرجاع التفاصيل إلى أقصى حد ممكن. وقد تم تطبيق نموذج الـ Transformer على مهام MISR لأول مرة بنجاح من خلال TR-MISR، مع تقليل كبير في صعوبة تدريب نموذج الـ Transformer من خلال تجاهل العلاقات المكانية بين لوحات الصورة. وقد أظهرت تجارب واسعة على مجموعة بيانات PROBA-V Kelvin تفوق النموذج المقترح، مما يوفر طريقة فعّالة لاستخدام نماذج الـ Transformer في مهام الرؤية منخفضة المستوى الأخرى.