CascadedGaze: الكفاءة في استخراج السياق العالمي لإعادة ترميم الصور

تعتمد مهام استعادة الصور تقليديًا على الشبكات العصبية التلافيفية (Convolutional Neural Networks). ومع ذلك، نظرًا للطبيعة المحلية لعملية التلافيف، تواجه صعوبة في اكتشاف المعلومات الشاملة (العامة). وتعتبر آليات الانتباه في نماذج الترانسفورمر (Transformers) واعدة في التغلب على هذه المشكلة، لكنها تأتي على حساب عبء حسابي كبير. وقد ركزت العديد من الدراسات الحديثة في مجال استعادة الصور على حل تحدي التوازن بين الأداء والتكلفة الحسابية من خلال تطوير نماذج مُعدّلة من الترانسفورمر. في هذه الورقة، نقدّم شبكة CascadedGaze (CGNet)، وهي بنية مُكوّنة من معالج ترميز (Encoder) ومعالج تفكيك (Decoder)، تستخدم وحدة استخراج السياق العالمي (Global Context Extractor - GCE)، وهي طريقة جديدة وفعّالة لاستخلاص المعلومات الشاملة في مهام استعادة الصور. تعتمد وحدة GCE على استخدام فلاتر صغيرة عبر طبقات التلافيف لتعلم الاعتماديات العالمية، دون الحاجة إلى آلية الانتباه الذاتي (Self-Attention). أظهرت النتائج التجريبية الواسعة أن النهج الفعّال من حيث الحوسبة الذي نقترحه يحقق أداءً تنافسيًا مع مجموعة من الأساليب الرائدة حاليًا في مهام إزالة الضوضاء من الصور الاصطناعية وإزالة الضبابية من صورة واحدة، كما يُحدث تقدمًا إضافيًا في الأداء على مهمة إزالة الضوضاء من الصور الحقيقية.