iSeeBetter: تحسين دقة الفيديو الزمني المكاني باستخدام شبكات التصحيح التوليدية المتكررة

في الآونة الأخيرة، ساهمت النماذج القائمة على التعلم في تحسين أداء التكبير الفردي للصورة (SISR). ومع ذلك، فإن تطبيق SISR بشكل متتالي على كل إطار في الفيديو يؤدي إلى نقص في الاتساق الزمني. تتفوق الشبكات العصبية التلافيفية (CNNs) على الطرق التقليدية من حيث مقاييس جودة الصورة مثل نسبة الإشارة إلى الضوضاء القصوى (PSNR) وتشابه البنية (SSIM). ولكن الشبكات التوليدية التنافسية (GANs) تقدم ميزة تنافسية من خلال القدرة على التخفيف من مشكلة نقص التفاصيل النسيجية الدقيقة، التي تُلاحظ عادةً مع الشبكات التلافيفية عند تكبير الصورة بعوامل كبيرة. نقدم iSeeBetter، وهي طريقة جديدة قائمة على GAN لمعالجة تكبير الفيديو (VSR) من حيث الفضاء والزمن، تُنتج مقاطع فيديو مكبرة بشكل متسق زمنيًا. تعتمد iSeeBetter على استخلاص المعلومات المكانية والزمنية من الإطارات الحالية والجوارية باستخدام مفهوم الشبكات العكسية المتكررة (recurrent back-projection networks) كمُولِّد (generator). علاوةً على ذلك، لتحسين "الطبيعة الطبيعية" للصورة المكبرة وحذف العيوب التي تظهر في الخوارزميات التقليدية، نستخدم المُميِّز (discriminator) من شبكة GAN المُخصصة لتكبير الصورة (SRGAN). وعلى الرغم من أن متوسط مربع الخطأ (MSE) كهدف رئيسي للحد من الخسارة يُحسِّن PSNR وSSIM، إلا أن هذه المقاييس قد لا تلتقط التفاصيل الدقيقة في الصورة، مما يؤدي إلى تمثيل غير دقيق للجودة الذهنية. ولحل هذه المشكلة، نستخدم دالة خسارة رباعية (MSE، وظيفية إدراكية، تنافسية، وانحناء تام (TV)). تُظهر نتائجنا أن iSeeBetter تُقدِّم دقة في تكبير الفيديو تفوق الأداء المُستند إلى أحدث التقنيات.