إعادة النظر في تفتيت الصور باستخدام شبكة عصبية متعددة الطبقات فعّالة

تهدف إزالة الضبابية من الصور إلى استعادة الصورة الواضحة المخفية من نسخة مشوّشة لها، وتمتلك تطبيقات واسعة في مجال الرؤية الحاسوبية. وقد أظهرت الشبكات العصبية التلافيفية (CNN) أداءً متميزًا في هذا المجال لسنوات عديدة، وحتى في الآونة الأخيرة، ظهرت بنية شبكة بديلة تُعرف بـ "Transformer"، والتي أظهرت أداءً أقوى حتى الآن. يمكن تفسير تفوقها إلى آلية الانتباه الذاتي متعدد الرؤوس (MHSA)، التي توفر مجال استقبال فعّالًا أكبر، وقابلية تكيف أفضل مع محتوى المدخلات مقارنةً بالـ CNN. ومع ذلك، نظرًا لاحتياج MHSA إلى تكاليف حوسبة عالية تزداد تربيعياً بالنسبة إلى دقة المدخلات، أصبحت غير عملية في مهام إزالة الضبابية للصور عالية الدقة. في هذا العمل، نقترح شبكة CNN خفيفة الوزن موحدة، تتميز بمجال استقبال فعّال كبير (ERF)، وتُظهر أداءً مماثلاً أو حتى أفضل من الشبكات من نوع Transformer، مع تكاليف حوسبة أقل. يكمن التصميم الأساسي لدينا في كتلة CNN فعّالة تُسمى LaKD، والتي تمتلك تلافيفًا عميقة ببُعد كُلي كبير وهيكل مزج مكاني-قناة، مما يحقق مجال استقبال فعّال مماثلاً أو أكبر من الشبكات من نوع Transformer، مع حجم معلّمات أصغر. وبشكل محدد، نحقق تحسنًا بقيمة +0.17 ديسيبل / +0.43 ديسيبل في مقياس PSNR مقارنةً بأفضل نموذج حالي (Restormer) على مجموعتي بيانات اختبار إزالة الضبابية الناتجة عن التركيز غير الدقيق والضبابية الناتجة عن الحركة، مع استخدام 32% من المعلمات أقل و39% من العمليات الحسابية (MACs) أقل. تُظهر التجارب الواسعة أداءً متفوقًا لشبكتنا، وفعالية كل وحدة فيها. علاوةً على ذلك، نقترح مقياسًا مدمجًا وواضحًا يُسمى ERFMeter، والذي يُميّز مجال الاستقبال الفعّال بشكل كمي، ويُظهر ارتباطًا عالياً بالأداء العام للشبكة. نأمل أن يُحفّز هذا العمل المجتمع البحثي على استكشاف مزايا وعيوب بنى CNN وTransformer بشكل أعمق، خارج نطاق مهام إزالة الضبابية من الصور.