SwinIR: استعادة الصور باستخدام Swin Transformer

إعادة بناء الصور هي مشكلة رؤية منخفضة المستوى قائمة منذ فترة طويلة وتهدف إلى استعادة صور عالية الجودة من صور منخفضة الجودة (مثل الصور المقلصة، والضوضائية، والمضغوطة). بينما تعتمد طرق إعادة بناء الصور المتقدمة حاليًا على شبكات العصبونات التلافيفية، فقد تم بذل جهود قليلة باستخدام نماذج الـ Transformers التي أظهرت أداءً مثيرًا للإعجاب في مهام الرؤية عالية المستوى. في هذا البحث، نقترح نموذجًا أساسيًا قويًا يُسمى SwinIR لإعادة بناء الصور اعتمادًا على Swin Transformer. يتكون SwinIR من ثلاثة أجزاء: استخراج الخصائص السطحية، واستخراج الخصائص العميقة، وإعادة بناء الصورة عالية الجودة. بشكل خاص، يتكون وحدة استخراج الخصائص العميقة من عدة كتل متبقية لـ Swin Transformer (RSTB)، وكل منها يحتوي على عدة طبقات من Swin Transformer مع اتصال متبقى. أجرينا تجارب على ثلاث مهام تمثيلية: زيادة دقة الصورة (تشمل زيادة الدقة الكلاسيكية، والخفيفة الوزن، والواقعية)، وإزالة الضوضاء من الصورة (تشمل إزالة الضوضاء من الصور الرمادية والملونة)، وتخفيض تشوهات ضغط JPEG. تظهر النتائج التجريبية أن SwinIR يتفوق على الطرق المتقدمة الحالية في مختلف المهام بمقدار ما يصل إلى 0.14~0.45 ديسيبل، بينما يمكن تقليل إجمالي عدد المعلمات بنسبة ما يصل إلى 67%.