تحسين دقة الصور ذات الجودة المنخفضة باستخدام Swin Transformer المستند إلى استراتيجية الاتصال الكثيف الفاصلية

أثبتت الطريقة القائمة على نموذج الـ Transformer أداءً ملحوظًا في مجال زيادة دقة الصور مقارنة بالطريقة القائمة على الشبكات العصبية التلافيفية (CNNs). ومع ذلك، فإن استخدام آلية الانتباه الذاتي مثل SwinIR (استعادة الصور باستخدام Swin Transformer) لاستخراج المعلومات الخاصة بالخصائص من الصور يتطلب كمية كبيرة من الموارد الحاسوبية، مما يحد من تطبيقها على المنصات ذات قدرة الحوسبة المنخفضة. لتحسين إعادة استخدام خصائص النموذج، تقترح هذه الدراسة استراتيجية الاتصال الكثيف الفاصلة، والتي تربط بين الكتل المختلفة وفقًا للخوارزمية المصممة حديثًا. نقوم بتطبيق هذه الاستراتيجية على SwinIR وتقديم نموذج جديد يُسمى SwinOIR (استعادة صورة الكائن باستخدام Swin Transformer). فيما يتعلق بزيادة دقة الصور، تم إجراء دراسة تقليصية لإظهار التأثير الإيجابي لاستراتيجية الاتصال الكثيف الفاصلة على أداء النموذج. بالإضافة إلى ذلك، قمنا بتقييم نموذجنا على مجموعة متنوعة من قواعد البيانات المرجعية الشهيرة، ومقارنته مع النماذج الخفيفة الأخرى التي تعتبر الأفضل حاليًا (SOTA). على سبيل المثال، حقق SwinOIR نسبة PSNR تبلغ 26.62 ديسيبل لزيادة دقة الصور بمعدل ×4 في مجموعة بيانات Urban100، وهي أعلى بمقدار 0.15 ديسيبل من النموذج الأفضل حاليًا SwinIR. بالنسبة للتطبيقات العملية، يتم تطبيق أحدث إصدار من نموذج You Only Look Once (YOLOv8) والنماذج المقترحة لإجراء اكتشاف الكائنات وزيادة دقة الصور الحقيقية في الصور ذات الجودة المنخفضة. رمز التنفيذ متاح بشكل عام على الرابط https://github.com/Rubbbbbbbbby/SwinOIR.