Restormer: كفاءة الترانسفورمر لاستعادة الصور ذات الدقة العالية

بما أن الشبكات العصبية التلافيفية (CNNs) تتميز بأدائها الجيد في تعلم الأولويات الصورية القابلة للتعميم من بيانات على نطاق واسع، فقد تم تطبيق هذه النماذج بشكل مكثف في استعادة الصور ومهمات ذات صلة. مؤخرًا، أظهرت فئة أخرى من المعماريات العصبية، وهي النماذج المتحولة (Transformers)، تحسينات أداء كبيرة في مهمات اللغة الطبيعية والرؤية عالية المستوى. بينما يخفف نموذج النموذج المتحول من عيوب الشبكات العصبية التلافيفية (أي، المجال الاستقبالي المحدود وعدم القدرة على التكيف مع محتوى الإدخال)، فإن تعقيد الحساب الخاص به يزداد بشكل متزايد مع الدقة المكانية، مما يجعله غير قابل للتطبيق على معظم مهمات استعادة الصور التي تتضمن صورًا عالية الدقة. في هذا البحث، نقترح نموذجًا متحولًا كفؤًا من خلال إجراء تصاميم رئيسية في الوحدات الأساسية (الانتباه متعدد الرؤوس والشبكة الأمامية) بحيث يمكنه التقاط التفاعلات البكسلية طويلة المدى، مع البقاء قابلاً للتطبيق على صور كبيرة. نُطلق على نموذجنا اسم Restormer (Restoration Transformer)، وقد حقق أفضل النتائج الحالية في عدة مهمات لاستعادة الصور، بما في ذلك إزالة المطر من الصور، إزالة تشويش الحركة من صورة واحدة، إزالة التشويش خارج التركيز (من صورة واحدة ومن بيانات بكسل ثنائية)، وإزالة الضوضاء من الصور (إزالة الضوضاء الغاوسية بالأبيض والأسود / اللون، وإزالة الضوضاء الفعلية من الصور). يمكن الحصول على الكود المصدر والنماذج المدربة مسبقًا عبر الرابط: https://github.com/swz30/Restormer.