iiTransformer: نهج موحد لاستغلال المعلومات المحلية وغير المحلية لاستعادة الصور

يهدف استعادة الصور إلى استعادة صورة عالية الجودة من إدخال مُتدهور. وعلى الرغم من النتائج المبهرة التي تم تحقيقها في مهام استعادة الصور المختلفة باستخدام الشبكات العصبية التلافيفية (CNNs)، إلا أن عملية التلافيف تُقيّد قدرتها على استغلال المعلومات خارج مجال استقبالها (receptive field). أما نماذج التحولات (Transformers)، التي تستخدم آلية الانتباه الذاتي (self-attention) لنمذجة الاعتماديات طويلة المدى في المدخلات، فقد أظهرت نتائج واعدة في العديد من المهام البصرية عالية المستوى. في هذه الورقة، نقترح معمارية iiTransformer التي تُنمذج بشكل صريح الاعتماديات طويلة المدى على مستويي البكسل والبلاطة (patch)، نظرًا للفوائد الناتجة عن أخذ الاعتماديات المكانية والغير مكانية للسمات بعين الاعتبار. بالإضافة إلى ذلك، نقدم حلًا خالياً من عيوب الحدود (boundary artifact-free) يدعم الصور ذات الأحجام العشوائية. ونُظهر إمكانات iiTransformer كمُعمارية أساسية عامة من خلال تجارب واسعة على مهام مختلفة لاستعادة الصور.