PPformer: استخدام الانتباه المتبادل على مستوى البكسل والقطعة لتحسين الصور ذات الإضاءة المنخفضة
في الآونة الأخيرة، أظهرت الطرق القائمة على الترانسفورمر منافسة قوية مقارنة بالطرق القائمة على الشبكات العصبية التلافيفية (CNN) في مهمة تحسين الصور ذات الإضاءة المنخفضة، وذلك من خلال استخدام الانتباه الذاتي لاستخراج الميزات. وتتميز الطرق القائمة على الترانسفورمر بأداء ممتاز في نمذجة الاعتماديات بين البكسلات على المدى الطويل، وهي عوامل حاسمة في تحسين الصور ذات الإضاءة المنخفضة لضمان إضاءة أفضل، وألوان طبيعية، وتناقض أعلى. ومع ذلك، فإن التكلفة الحسابية العالية للانتباه الذاتي تحد من تطور هذه الطرق في مجال تحسين الصور ذات الإضاءة المنخفضة، بينما يعاني بعض الأبحاث من صعوبة في تحقيق التوازن بين الدقة والتكلفة الحسابية. في هذا العمل، نقترح شبكة خفيفة الوزن وفعالة تُسمى PPformer، تعتمد على آلية انتباه متقاطع تُطبّق على مستوى البكسل والبصمة (patch)، وذلك لتحسين الصور ذات الإضاءة المنخفضة. يُعد PPformer شبكة هجينة تجمع بين تقنيات CNN والترانسفورمر، وتنقسم إلى ثلاث أجزاء رئيسية: الفرع المحلي، والفرع العالمي، وآلية الانتباه المتقاطع المزدوج. تؤدي كل جزء دورًا محوريًا في أداء PPformer. وبشكل خاص، يستخرج الفرع المحلي معلومات هيكلية محلية باستخدام صف من وحدات التحسين الواسعة (Wide Enhancement Modules)، بينما يوفر الفرع العالمي معلومات عالمية مُحسَّنة من خلال وحدة الانتباه المتقاطع للبصمات (Cross Patch Module) ووحدة الت.Convolution العالمية (Global Convolution Module). علاوة على ذلك، وعلى عكس الانتباه الذاتي، نستخدم المعلومات الدلالية العالمية المستخرجة لتوجيه نمذجة الاعتماديات بين المناطق المحلية وغير المحلية. وبفضل حساب آلية الانتباه المتقاطع المزدوج، يمكن لـ PPformer استعادة الصور بشكل فعّال مع تحسين في اتساق الألوان، والإضاءة الطبيعية، والتناقض. وبفضل الآلية المُقترحة للانتباه المتقاطع المزدوج، يتمكن PPformer من التقاط الاعتماديات على كل من مستويات البكسل والبصمة ضمن خريطة الميزات الكاملة. وتشير التجارب الواسعة على أحد عشر مجموعة بيانات معيارية من العالم الحقيقي إلى أن PPformer يحقق نتائج كمية ونوعية أفضل مقارنة بالطرق الرائدة السابقة.