المحولات القائمة على المجال الترددي الفعّالة لاسترجاع صور عالية الجودة من الصور الضبابية

نقدم طريقة فعّالة وفعّالة من حيث الكفاءة تستكشف خصائص نماذج المحولات (Transformers) في المجال الترددي لاسترجاع صور خالية من التشويش بجودة عالية. تُحفَّز هذه الطريقة بالنظرية الترددية التي تنص على أن الترابط أو التوافيق (convolution) بين إشارتين في المجال المكاني يعادل الضرب الطرفي (element-wise product) لهما في المجال الترددي. ويشجّع هذا التفكير على تطوير حلّ مبني على المجال الترددي يُسمّى "حلّ الانتباه الذاتي المستند إلى المجال الترددي" (FSAS)، والذي يقدّر انتباه الضرب النقطي المُدرّج (scaled dot-product attention) باستخدام عملية ضرب طرفي بدلًا من الضرب المصفوفي في المجال المكاني. بالإضافة إلى ذلك، لاحظنا أن استخدام شبكة التغذية الأمامية البسيطة (FFN) في نماذج المحولات لا يُنتج نتائج استرجاع صور واضحة جيدة. لتجاوز هذه المشكلة، نقترح شبكة تغذية أمامية مميزة (DFFN) مبنية على المجال الترددي، وبسيطة لكنها فعّالة، حيث نُدخل آلية مُحدّدة (gated mechanism) داخل الشبكة التغذوية الأمامية مستندة إلى خوارزمية ضغط صور جيبيج (JPEG) لتمييز المعلومات ذات التردد المنخفض والمرتفع في الميزات، والحفاظ على ما يُعدّ ضروريًا لاسترجاع الصورة الواضحة المُخفيّة (latent clear image). ونُصاغ FSAS وDFFN المقترحين ضمن شبكة غير متماثلة مبنية على هيكل مُشفّر (encoder) وموّجه (decoder)، حيث تُستخدم FSAS فقط في وحدة الموّجه لتحقيق تحسين أفضل في استرجاع الصور المتشوّهة. تُظهر النتائج التجريبية أن الطريقة المقترحة تتفوّق على الطرق المتطورة حديثًا. وسيتم توفير الشفرة البرمجية على الرابط التالي: \url{https://github.com/kkkls/FFTformer}.