Uformer: نموذج U-شaped عام لاستعادة الصور

في هذا البحث، نقدم Uformer، وهي بنية فعالة وكفوءة تعتمد على Transformer لاستعادة الصور، حيث نقوم ببناء شبكة مرممة ترميزية-فك ترميزية هرمية باستخدام كتلة Transformer. في Uformer، هناك تصميمان أساسيان. أولاً، نقدم كتلة Transformer ذات النافذة المحسنة محليًا (LeWin)، والتي تقوم بالانتباه الذاتي القائم على النوافذ غير المتداخلة بدلاً من الانتباه الذاتي العالمي. يقلل هذا التصميم بشكل كبير من التعقيد الحسابي للخريطة المميزة عالية الدقة مع الحفاظ على السياق المحلي. ثانيًا، نقترح مُعَدِّل استعادة متعدد المقاييس قابل للتعلم على شكل تحيز فضائي متعدد المقاييس لضبط المميزات في طبقات متعددة من فك ترميز Uformer. يظهر مُعَدِّلنا قدرة فائقة على استعادة التفاصيل لمهام مختلفة لاستعادة الصور مع إدخال عدد ضئيل جدًا من المعلمات الإضافية والتكلفة الحسابية. بفضل هذين التصميمين، يتمتع Uformer بقدرة عالية على التقاط الارتباطات المحلية والعالمية لاستعادة الصور. لتقييم نهجنا، تم إجراء تجارب واسعة النطاق على عدة مهام لاستعادة الصور، بما في ذلك تنقية الصورة من الضوضاء (denoising)، إزالة تشويش الحركة (motion deblurring)، إزالة التشويش الناجم عن عدم التركيز (defocus deblurring) وإزالة الأمطار (deraining). بدون أي تعديلات أو تقنيات خاصة، حقق Uformer أداءً فائقًا أو مكافئًا للمgorithms الرائدة حاليًا. يمكن الحصول على الكود والنماذج من https://github.com/ZhendongWang6/Uformer.