Swin2-MoSE: نموذج جديد للتحليق الفوتوغرافي من صورة واحدة للاستشعار عن بعد

بسبب حدود التقنيات البصرية وتقنيات الاستشعار الحالية والتكلفة العالية لتحديثها، قد لا تلبي دقة الطيف والفضاء للأقمار الصناعية دائمًا المتطلبات المرجوة. ولذلك، اكتسبت تقنيات التحسين الفائق للصورة الواحدة عن بعد (RS-SISR) اهتمامًا كبيرًا. في هذا البحث، نقترح نموذج Swin2-MoSE، وهو إصدار محسن من Swin2SR. يُدخل نموذجنا MoE-SM، وهو مزيج محسن من الخبراء (Mixture-of-Experts - MoE) لاستبدال التغذية الأمامية داخل جميع كتل الترانسفورمر. تم تصميم MoE-SM مع Smart-Merger، وهي طبقة جديدة لدمج مخرجات الخبراء الفرديين، ومع طريقة جديدة لتوزيع العمل بين الخبراء، حيث يتم تعريف استراتيجية لكل مثال بدلاً من الاستراتيجية الشائعة لكل رمز (token). علاوة على ذلك، نحلل كيفية تفاعل الترميزات الموضعية مع بعضها البعض، مما يظهر أن الانحياز لكل قناة والانحياز لكل رأس يمكن أن يعملان بشكل إيجابي معًا. أخيرًا، نقترح استخدام تركيبة من خسائر الارتباط المتقاطع المُعَدَّل (NCC) ومؤشر التشابه الهيكلي (SSIM)، لتجنب قيود خسارة MSE النموذجية. تُظهر النتائج التجريبية أن Swin2-MoSE يتفوق على أي نماذج مشتقة من Swin بمقدار يصل إلى 0.377 - 0.958 ديسيبل (PSNR) في مهمة زيادة الدقة بمعدلات 2x و3x و4x (مجموعات البيانات Sen2Venus وOLI2MSI). كما أنه يتفوق على أفضل النماذج الحالية بفارق جيد، مما يثبت تنافسيته وإمكاناته الممتازة، خاصةً في المهام المعقدة. بالإضافة إلى ذلك، تم إجراء تحليل لتكاليف الحساب أيضًا. وأخيرًا، نوضح فعالية Swin2-MoSE بتطبيقه على مهمة تقسيم الصور الدلالية (مجموعة بيانات SeasoNet). الرمز والمعلمات المسبقة متاحة على الرابط:https://github.com/IMPLabUniPr/swin2-mose/tree/official_code