DRCT: إنقاذ استرجاع الصورة عالي الدقة من الانسداد المعلوماتي

في السنوات الأخيرة، حققت النماذج المستندة إلى نموذج التحويل البصري (Vision Transformer) نجاحًا واسع الانتشار في المهام البصرية منخفضة المستوى. على عكس النماذج القائمة على الشبكات العصبية التلافيفية (CNN)، يمتلك نماذج التحويل مهارة أكبر في التقاط الاعتماديات الطويلة المدى، مما يمكّن من إعادة بناء الصور باستخدام معلومات غير محلية. وفي مجال تحسين الدقة، أصبحت النماذج المستندة إلى Swin-Transformer هي المعيار السائد بفضل قدرتها على نمذجة المعلومات المكانية الشاملة، بالإضافة إلى آلية الانتباه القائمة على النوافذ المتحركة التي تسهّل تبادل المعلومات بين النوافذ المختلفة. وقد ساهم العديد من الباحثين في تحسين أداء النماذج من خلال توسيع مجال الاستقبال أو تصميم شبكات دقيقة، مما أدى إلى نتائج متميزة. ومع ذلك، لاحظنا أن من الظواهر الشائعة في النهاية الشبكية تقلص شدة خريطة الميزات بشكل مفاجئ إلى قيم صغيرة، ما يشير إلى وجود عقبة معلوماتية (Information Bottleneck) وتراجع في المعلومات المكانية، مما يحد بشكل غير مباشر من إمكانات النموذج. ولحل هذه المشكلة، نقترح نموذج التحويل المتصل باتصالات مكثفة ومتعددة (Dense-residual-connected Transformer - DRCT)، المصمم لتقليل فقدان المعلومات المكانية وتحقيق استقرار في تدفق المعلومات عبر اتصالات متعددة ومتداخلة بين الطبقات، وبالتالي إطلاق الإمكانات الكاملة للنموذج وتجنبه لعوائق المعلومات. وتشير نتائج التجارب إلى أن منهجنا يتفوق على أحدث الطرق في مجموعات البيانات القياسية، كما أظهر أداءً متميزًا في مسابقة NTIRE-2024 لتحسين دقة الصور (x4). يمكن الاطلاع على الكود المصدري عبر الرابط: https://github.com/ming053l/DRCT