التحويلات البصرية للإزالة الفردية للضباب من الصور

إزالة الضباب من الصور هي مهمة تمييزية من المهام المنخفضة المستوى في الرؤية الحاسوبية، حيث تهدف إلى تقدير صور خالية من الضباب من صور مغطاة بالضباب. في السنوات الأخيرة، احتلت الطرق القائمة على الشبكات العصبية التلافيفية (CNN) المكانة الريادية في مجال إزالة الضباب من الصور. ومع ذلك، لم تُسهم نماذج الـ Vision Transformers، التي حققت تقدماً كبيراً في المهام عالية المستوى للرؤية الحاسوبية، في إدخال أبعاد جديدة إلى مجال إزالة الضباب من الصور. نبدأ بتحليل المُحول الشهير Swin Transformer، ونكتشف أن عدة تصميمات رئيسية فيه غير مناسبة لمهام إزالة الضباب. ولحل هذه المشكلة، نقترح نموذجاً جديداً يُسمى DehazeFormer، يتضمن تحسينات متعددة، مثل طبقة التطبيع المُعدّلة، ودالة التنشيط المُعدّلة، وآلية جمع المعلومات المكانية. قمنا بتدريب نماذج متعددة من DehazeFormer على مجموعات بيانات مختلفة لإثبات فعاليتها. وبشكل خاص، على مجموعة SOTS الداخلية التي تُستخدم على نطاق واسع، يتفوّق نموذجنا الصغير على FFA-Net رغم امتلاكه فقط 25% من عدد المعلمات (#Param) وتكلفة حسابية تقل بنسبة 5%. إلى حد معرفتنا، فإن النموذج الكبير لدينا هو أول نموذج يحقق قيمة PSNR تزيد عن 40 ديسيبل على مجموعة SOTS الداخلية، متفوّقاً بشكل كبير على أفضل الطرق السابقة. كما قمنا بجمع مجموعة بيانات كبيرة وواقعية لتصوير الأقمار الصناعية لإزالة الضباب، بهدف تقييم قدرة النموذج على إزالة الضباب غير المتجانس للغاية.